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内 容 提要 

本 书 是 一 本 深度 学 习 入 门 读物 。 以 目前 已 经 大 量 用 于 线 上 系统 的 深度 学 习 框 架 Caffe 为 例 , 由 浅 入 深 , 
从 Caffe 的 配置 、 部 办 、 使 用 开始 学 习 ， 通 过 阅读 Caffe 源码 理解 其 精 信 ， 加 强 对 深度 学 习 理 论 的 理解 ， 
最 终 达 到 熟练 运用 Caffe 解决 实际 问题 的 目的 。 和 国外 机 器 学 习 、 深 度 学 习 大 部 头 著作 相 比 ， 本 书 偏重 动 
手 实践 ， 将 难以 捉摸 的 枯燥 理论 用 浅显 易 懂 的 形式 表达 出 来 ， 透 过 代码 揭 开 其 神秘 面纱 ， 更 多 地 贴近 实际 
应 用 。 

本 书 非常 适合 : 对 人 工 智能 、 机 器 学 习 感 兴趣 的 读者 ; 希望 用 深度 学 习 完成 设计 的 计算 机 或 电子 信息 
专业 学 生 ; 准备 开设 机 器 学 习 、 深 度 学 习 实践 课 的 授课 老师 ; 学 习 过 C++， 和 希望 进一步 提升 编程 水 平 的 开 
A: 刚 入 坑 的 机 器 学 习 、 语 音 、 机 器 视觉 、 智 能 机 器 人 研发 或 算法 工程 师 。 





未 经 许可 ， 不 得 以 任何 方式 复制 或 抄袭 本 书 之 部 分 或 全 部 内 容 。 
版 权 所 有 ， 侵 权 必 究 。 
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近年 来 ,几乎 整个 智能 学 科 的 研究 者 们 都 注意 到 一 个 技术 名 词 一 一 深度 学 习 (Deep Learning). 
这 个 略 带 神秘 色彩 的 名 字 和 其 代表 的 前 沿 性 技术 被 著名 的 《MIT 技术 评论 》 评选 为 2013 年 世界 
10 大 突破 性 技术 之 首 。 而 在 此 之 前 ， 包括 Google. Microsoft, Facebook 等 公司 在 内 的 诸多 信息 
科技 巨头 都 已 争 相 在 此 技术 上 投入 了 前 所 未 有 的 重视 力度 和 战 咯 资源 ， 继 而 高 调 宣 布 布局 智能 
应 用 领域 。 学 术 界 和 工业 界 不 遗 余 力 地 抢 十 相关 研究 和 技术 的 制高点 ， 人 们 并 没有 感到 奇怪 ， 
因为 所 有 人 都 明白 : 这 也 许 是 人 类 在 探索 人 工 智 能 的 伟大 旅程 和 漫漫 征途 上 的 重要 一 刻 。 


关于 人 工 神 经 网 络 的 研究 可 以 妃 溯 到 20 世纪 40 年 代 。 在 其 漫长 的 历史 上 经 历 了 数 次 戏剧 
性 的 波折 。 然 而 近年 来 ， 随 着 大 量 数 据 的 获得 、 先 进 理论 的 发 现 ， 以 及 高 性 能 并 行 计 算 技 术 的 
发 展 ， 以 深度 神经 网 络 为 载体 的 特征 学 习 技术 相继 在 语音 、 视 觉 、 语 言 等 诸多 研究 领域 中 取得 
了 突破 性 的 成 果 ， 并 且 正 以 不 可 阻挡 之 势 “ 入 侵 ” 传 统 技术 占领 的 各 个 领域 。 


随 着 深度 学 习 技 术 在 学 术 界 和 工业 界 得 到 广泛 认可 ， 越 来 越 多 的 人 开始 参与 到 深度 学 习 的 
相关 研究 和 实践 中 来 。 然 而 ， 由 于 存在 一 定 的 技术 门槛 ， 快 速 入 手 深度 学 习 的 研究 并 不 是 一 件 
容易 的 事情 。 其 中 的 一 个 重要 原因 是 ， 深 度 学 习 中 的 许多 问题 非常 依赖 于 实践 。 然 而 长 期 以 来 ， 
学 术 界 和 工业 界 缺少 一 款 专门 为 深度 学 习 而 设计 的 ， 菊 具 性 能 、 灵 活性 和 扩展 性 等 诸多 优势 于 
一 身 的 开源 框架 。 这 使 得 无 论 是 快速 实现 算法 ,还 是 复 现 他 人 的 结论 ， 都 存 在 着 实践 上 的 困难 。 
研究 人 员 和 工程 师 们 迫切 宁 要 一 套 通 用 击 融 效 的 深度 学 习 开源 框架 。 


2013 年 ,一 款 叫 作 “Caffe” 的 深度 学习 框架 由 加 州 大 学 伯克利 分 校 的 @ 贾 扬 清 博士 在 .Github 
上 发 布 。 发 布 伊始 ，Caffe 框架 就 得 到 了 广泛 的 关注 。Caffe 框架 以 “ 层 ” 为 单位 对 深度 神经 网 
络 的 结构 进行 了 高 度 的 抽象 ， 通 过 一 些 精巧 的 设计 显著 优化 了 执行 效率 ， 并 且 在 保持 高 效 实现 
的 基础 上 不 失灵 活性 。 无 论 在 结构 、 性 能 上 ， 还 是 代码 质量 上 ，Caffe 都 是 一 款 十 分 出 色 的 开源 
框架 。 更 重要 的 是 ， 它 将 深度 学 习 的 每 一 个 细节 都 原原本本 地 展现 出 来 ， 供 人 们 学 习 和 实践 。 
可 以 说 ，Caffe 框架 的 发 布 极 大 地 降低 了 深度 学 习 研 究 和 开发 的 难度 。 


正 是 由 于 上 述 的 诸多 优势 ，Caffe 框架 迅速 流行 起 来 ， 并 且 逐 步 形成 了 强大 的 用 户 社区 。 经 
过 两 年 多 的 版 本 迭代 ，Caffe 框架 已 经 在 学 术 界 和 工业 界 得 到 了 广泛 的 认可 。 在 学 术 界 ， 目 前 每 
天 都 有 以 Caffe 框架 作为 底层 实现 的 研究 成 果 发 布 ; 而 在 工业 界 ,， 已 经 有 许多 产品 使 用 Caffe 作 
为 其 深度 学 习 算法 实现 的 内 核 。 ven S Che ef e LED BITES, 基于 同一 
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套 平台 进行 研究 、 交流 和 生产 ， 这 是 一 件 令 人 愉悦 的 事情 。 可 以 说 ，Caffe 开源 项 目 对 于 促进 整 
个 深度 学 习 研 究 领域 的 快速 发 展 共 有 不 可 磨灭 的 页 献 


对 于 刚刚 接触 深度 学 习 的 朋友 们 来 说 ， 通 过 结合 Caffe 的 代码 来 加 深 对 理论 的 理解 ， 也 许 
是 一 种 事半功倍 的 方法 。Caffe 框架 天 然 的 清晰 层次 和 和 良好 的 代码 可 读 性 ,为 入 手 深 度 学 习 的 朋 
友 们 提供 了 教科 书 般 的 实践 指导 。 然 而 ， 由 于 Caffe 中 有 大 量 技术 细节 是 在 论文 中 无 法 找到 的 ， 
想 要 快速 理解 Caffe 框架 内 部 的 种 种 精 要 往往 需要 费 一 番 周 折 。 幸 好 ， 有 一 些 先行 者 为 大 家 分 
享 了 相关 的 知识 。 





几 天 前 ， 我 有 幸 接 到 好 友 @ 卜 居 的 邀请 ， 为 他 的 《深度 学 习 : 21 天 实战 Caffe》 新 书 做 序 。 
这 本 书 是 国内 第 一 本 在 代码 级 别 上 全 面前 析 Caffe 框架 的 指导 书 ， 同 时 也 是 一 本 真正 的 实战 手 
上 册 。 本 书 涉及 深度 学 习 的 基本 理论 、Caffe 的 设计 思想 、Caffe 中 各 模块 的 具体 实现 ， 以 及 各 种 
实例 等 内 容 。 书 中 对 Caffe 框架 的 分 析 非 常 细致 ， 涵 盖 的 内 容 也 颇 为 丰富 ， 可 以 说 是 一 本 入 手 
Caffe 实践 的 技术 手册 ， 因 此 特别 适合 于 Caffe 的 初学 者 阅读 。 相 信 本 书 可 以 帮助 朋友 们 少 走 许 
多 弯路 。 有 关 Caffe 的 诸多 奥秘 ，@ 卜 居 将 会 在 书 中 为 您 一 一 呈现 。 


感谢 创立 和 推动 深度 学 习 研究 的 科学 家 们 ， 感 谢 Caffe 框架 的 作者 页 扬 清 博士 ， 感 谢 本 书 
的 作者 @ 卜 居 ， 以 及 所 有 为 深度 学 习 技 术 的 发 展 而 奋斗 的 朋友 们 。 我 们 的 征途 是 星辰 与 大 海 ， 
让 我 们 一 起 努力 ， 向 着 实现 人 工 智能 的 伟大 目标 前 进 ! 


ERR 
Caffe 中 国 用 户 社区 (caffecn.cn ) 创始 人 
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在 各 色 缤 纷 的 科技 创新 报道 中 ， 人 工 智能 CAD 成 果 引 发 的 社会 性 冲击 无 疑 前 所 未 有 。 一 
些 科技 术语 如 “深度 学 习 ”， 对 信息 技术 类 学 生 而 言 变 得 不 再 陌生 。 虽 然 国 际 科 技 界 对 相关 领域 
的 研究 已 有 数 十 年 的 历史 ， 而 跳跃 式 进步 还 只 是 最 近 若 十 年 的 事 。 正 是 这 个 原因 ， 关 于 机 器 智 
能 和 “深度 学 习 ” 的 学 习 类 书籍 大 多 偏重 理论 ， 或 散 见 于 外 刊 上 发 表 的 研究 论文 、 各 个 研究 发 
展 机 构 的 研究 报告 、 开 源 资料 等 ， 鲜 有 从 工程 实践 出 发 系统 地 介绍 深度 学 习 的 书籍 。 


国外 研究 机 构 设 置 的 开源 社区 的 繁荣 发 展 ， 从 工程 实现 方面 补充 了 理论 研究 的 不 足 。 然 而 ， 
对 开源 代码 的 阅读 、 理 解 、 应 用 对 于 非 机 器 学 习 专业 人 士 有 较 大 的 挑战 性 。 阿 里 云 计 算 有 限 公 
司 的 赵 永 科 工 程 师 《博客 昵 称 : 下 居 ) 在 研发 实践 的 基础 上 ， 对 深度 学 习 从 基础 理论 到 编程 实 
践 进行 了 系统 的 整理 ， 形 成 了 《深度 学 习 : 21 天 实战 Caffe》 一 书 。 这 是 一 个 有 技术 深度 、 处 
于 国际 技术 竞争 中 的 领域 ， 而 本 书 是 一 个 研发 亲历 者 对 技术 深入 理解 后 的 总 结 ， 十 分 难得 。 


本 书 的 写作 风格 是 引导 性 的 ， 围 绕 深 度 学习 基 础 ， 通 过 代码 导读 方式 ， 循 序 渐进 ， 揭 开 了 
深度 学 习 的 神秘 面纱 ， 让 深度 学 习 技 术 ， 包 括 理 论 和 工程 实现 ， 贴 近 所 有 AI 愛好 者 。 相 倍 本 
书 的 出 版 能 够 激发 更 多 研究 者 的 兴趣 ， 推 动 AI 技术 在 中 国 的 发 展 和 应 用 。 


中 国 科学 院 大 学 教授 , 研究 只 , 洪 低 学 者 
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让 机 器 具有 人 类 的 智能 是 科学 家 们 从 计算 机 诞生 开始 就 一 直 在 努力 的 方向 ， 但 是 由 于 选择 
了 基于 规则 的 算法 ， 效 果 一 直 得 不 到 大 的 提升 ， 论 文中 经 常 以 效果 比 乱 猪 好 作为 结论 。 卷 积 神 
经 网 络 的 发 明 者 Geoffrey Hinton 在 20 世纪 70 年 代 就 已 经 提出 了 今天 的 深度 学 习 理 论 ， 但 是 限 
于 当时 的 计算 能 力 ， 一 直 不 被 人 重视 。21 世纪 以 来 ， 随 着 NVIDIA GPU 的 广泛 应 用 ， 人 工 神经 
网 络 发 挥 了 它 应 有 的 价值 ， 成 为 今天 人 工 智能 的 代表 性 成 就 ，Hinton 也 被 尊称 为 鼻祖 。 





当 GPU 在 深度 学 习 领 域 大 范围 使 用 时 , 研究 人 员 遇 到 了 一 个 重大 的 问题 一 一 要 写 大 量 的 复 
杂 的 神经 网 络 代 码 ， 这 带 来 了 巨大 的 困难 。 在 这 个 历史 性 的 关键 时 刻 ， 贾 扬 清 同学 开发 的 Caffe 
适时 地 出 现 了 ，Caffe 让 只 要 会 C++ 编程 的 人 员 就 可 以 编写 深度 学 习 代 码 ， 一 下 子 就 降低 了 深度 
学 习 的 门槛 。 随 后 Caffe 得 到 了 广泛 使 用 ， 并 且 获 得 了 社区 的 广泛 支持 ， 也 得 到 了 NVIDIA 的 
大 力 支持 ， 获 得 了 充足 的 发 展 ， 几 乎 可 以 说 不 知道 Caffe 就 不 能 说 会 深度 学 习 。 


Caffe 把 深度 学 习 的 门槛 降低 了 很 多 , 但 是 实际 上 依旧 需要 了 解 大 量 的 代码 细节 才能 对 其 进 
行 修改 ， 而 深度 学 习 又 是 一 个 计算 密集 的 应 用 ， 如 何 写 出 高 效 的 代码 也 非常 重要 。 卜 居 做 过 许 ， 
多 有 关 Caffe 的 工作 ,包括 优化 卷 积 算法 ， 非 常 了 解 Caffe 框架 的 各 个 细节 ， 他 编写 的 《深度 学 
习 : 21 天 实战 Caffe》 一 书 非常 详细 、 专 业 。 


卜 居 用 人 类 的 恋爱 过 程 来 比喻 深度 学 习 的 学 习 过 程 ， 从 初 识 、 热 恋 到 升华 ， 很 让 人 称道 。 
在 初 识 阶段 ， 从 深度 学 习 的 概念 、 历 史 开始 ， 介 绍 深度 学 习 和 基本 理论 与 传统 机 器 学 习 算法 的 
不 同 ， 也 包含 了 业界 对 深度 学 习 的 反思 。 在 热恋 阶段 ， 在 具体 实 操 方面 ， 从 Caffe 的 安装 开始 
介绍 ,到 具体 运行 minst 数据 集 ; 从 Caffe 的 目录 结构 、 不 同 层 (功能 ) 和 数据 抽象 的 实现 细节 ， 
到 如 何 求解 一 个 深度 学 习 横 型 ， 卜 居 都 一 一 精确 地 解读 。 在 升华 阶段 ， 卜 居 详 细 地 解说 了 Caffe 
支持 的 NVIDIA GPU 加 速 工具 CUDA 和 cuDNN， 然 后 介绍 了 Caffe 可 视 化 方法 ， 以 及 如 何在 
生产 环境 中 部 署 训练 好 的 Caffe 模型 。 
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本 书 虽然 以 21 天 起 名 ， 但 是 其 真实 内 容 是 需要 读者 每 天 24 小 时 学 习 才能 够 完全 掌握 的 ， 
相信 读者 会 一 天 24 小 时 手 不 释 卷 。 


我 郑重 地 向 大 家 推荐 此 书 。 


I Jie 


并 行 计算 领域 专家 ， 深 度 学 习 平 台 架 构 师 
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2014 年 , 我 开始 在 阿里 云 进行 深度 学 习 平台 优化 , 使 用 了 开源 框架 Caffe, 其 间 在 多 种 GPU 
服务 器 上 部 署 运 行 ， 同 时 也 根据 内 部 业务 需求 修改 源码 ， 研 究 基于 FFT 的 卷 积 层 加 速 方法 (有 
3& Hj Facebook AI Research Yann LeCun 老爷 子 同 时 做 同一 件 事 )。 在 学 习 和 修改 Caffe 源码 过 程 
中 根据 个 人 理解 写 了 数 篇 博客 ， 本 是 无 心 插 柳 , 康 料 有 一 天 博文 视点 编辑 @ 永 恒 的 侠 少 找到 我 ， 
建议 将 博客 内 容 进一步 扩展 为 一 本 深度 学 习 入 门 书 ， 贴 近 实 际 ， 让 更 多 读者 走 近 这 个 如 火 如 茶 
的 领域 。 理 想 远 大 ， 现 实 残酷 ， 互 联网 公司 的 工作 强度 大 ， 常 常 加 班 ， 还 要 抽 时 间 梳 理 写作 思 
路 ， 迟 迟 不 能 交 出 一 份 满意 的 书稿 。 熬 夜 艰辛 ， 但 字 劳 苦 ， 时 而 思 如 泉涌 ， 时 而 困顿 路 跳 ， 麻 
蹦 半 年 有 余 ， 总 算 付 梓 。 

在 写作 过 程 中 ， 从 头 到 尾 重 新 审视 了 一 遍 近 年 大 火 的 深度 学 习 技 术 ， 提 炼 了 经 典 论文 的 精 
华 , 深 深 为 其 近 30 年 的 坎坷 历程 鸣 趴 不 已 。 我 们 目前 看 到 的 深度 学 习 模型 和 基本 理论 可 能 比 我 
们 的 年 龄 都 要 大 ， 受 限于 当时 计算 能 力 不 足 ， 数 据 集 也 相对 匮乏 ， 深 度 学 习 一 度 陷 入 研究 低谷 ， 
直到 云 计算 、 大 数据 时 代 的 到 来 ， 日 益 增 长 的 数据 和 计算 能 力 为 深度 学 习 提 供 了 适宜 的 温度 和 
土壤 ， 也 为 其 突飞猛进 的 成 长 提供 了 充足 的 养料 。 

我 们 赶 上 了 好 时 代 。 在 物质 和 文化 如 此 繁荣 之 时 ， 有 更 多 的 人 愿意 思考 未 来 一 一 一 个 充满 
人 工 智 能 技术 的 时 代 。 自 动 驾 驶 汽车 、 智 能 机 器 人 、 无 人 机 …… 很 多 科幻 电影 中 的 技术 正在 成 
为 现实 ， 这 一 切 都 得 益 于 深度 学 习 技 术 和 相应 软 硬 件 系 统 的 发 展 进步 。 通 过 本 书 内 容 ， 读 者 将 
逐步 走 进深 度 学 习 ， 了 解 其 过 去 、 现 在 和 未 来 。 


本 书 读 者 
本 书 非常 适合 以 下 读者 : 
O 对 人 工 智 能 、 机 器 学 习 感 兴趣 的 读者 ; 


D 希望 用 深度 学 习 完 成 设计 的 计算 机 或 电子 信息 专业 学 生 ; 
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O 准备 开设 机 器 学 习 、 深 度 学 习 实 践 课 的 授课 老师 ; 


O 学 习 过 C++， 和 希望 进一步 提升 编程 水 平 的 开发 者 ; 
O 刚 入 坑 的 机 器 学 习 、 语 音 、 机 器 视觉 、 智 能 机 器 人 研发 或 算法 工程 师 。 
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Efa Ul 


ACE 3E RAHN, dp EAE SH 
等 闲 变 却 故人 心 ， 却 道 故 人 心 易 变 
Si LBZ Ft, AANRAAK A 
Ti FEES FHP, HOMIE AB. 


一 一 纳 兰 性 德 《木兰 词 ， 拟 十 决绝 词 束 友 人 


第 一 次 见 到 Caffe， 是 2014 年 年 初 我 在 阿里 云 实习 期 间 ， 看 到 很 多 同事 在 用 Caffe 做 深度 
学 习 算 法 优化 。 当 时 被 名 字 吸 引 了 ， 因 为 我 之 前 只 知道 Java 是 一 种 咖啡 ， 而 这 个 深度 学 习 框架 
全 称 是 “快速 特征 植 入 的 卷 积 结 构 ”(Convolutional Architecture for Fast Feature Embedding). ^ 
时 的 Caffe 还 只 是 锥 形 ， 看 了 一 裔 代码 后 深 深 被 其 设计 所 吸引 ， 高 效 的 CH/CUDA 实现 、 
Matlab/Python 接口 、 独 特 的 网 络 描 述 方式 、 清 晰 的 代码 框架 …… 当 时 对 深度 学 习 的 认识 仅仅 停 
留 在 教科 书 中 的 “神经 网 络 "、“ 多 层 感 知 占 ”、“ 径 向 基 函 数 ” 等 抽象 概念 上 ， 没 有 具体 可 操作 
性 ， 而 读 完 Caffe 代码 就 像 突 然 发 现 了 新 大 陆 一 般 ， 原 来 深度 学 习 实 现 起 来 居然 可 以 这 么 简单 ! 

经 过 两 年 的 发 展 ，Caffe 已 经 发 生 了 巨大 的 变化 ， 例 如 加 速 库 cuDNN 引入 、 多 GPU 支持 、 
多 种 计算 平台 CAWS, Apache Spark、 阿 里 云 ODPS/HPC) 支持 等 。 其 核心 变化 并 不 大 ， 体 现 
了 其 设计 模式 的 前 瞻 性 .Caffe 文档 丰富 , 对 初学 者 的 友好 程度 大 大 提升 。 本 篇 的 目的 是 让 Caffe 
走 近 每 个 深度 学 习 爱 好 者 ， 亲 身体 验 深度 学 习 最 佳 实践 方式 。 
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第 一 眼看 到 “学 习 ” 大 多 数 人 想到 的 是 读书 、 上 课 、 写 作业 ， 我 们 就 拿 它 作为 切入 点 。 上 
课时 ， 我 们 是 跟着 老师 一 步 步 学 习 ， 即 “有 监督 ”学 习 ; 而 课 后 的 作业 ， 则 需要 靠 自己 完成 ， 是 
“无 监督 ”学 习 。 平 时 做 的 课 后 练习 题 ， 是 我 们 学 习 系 统 的 “训练 数据 集 ”， 而 考试 时 卷 面 上 的 题 
目 则 属于 “测试 数据 集 *， 用 于 检验 我 们 的 学 习 成 果 。“ 学 霸 ” 训 练 效 果 比 其 他 人 好 ， 对 测试 数据 
集 的 所 有 情况 如 数 家 珍 ;:“ 学 湾 ” 则 完全 没有 训练 或 训练 不 充分 ， 对 测试 数据 集 的 效果 和 随机 和 猜 
测 差不多 ; 还 有 “学 痴 ” 在 训练 上 出 现 了 “过 拟 合 ” 平时 做 训练 题 深 瓜 烂熟 , 一 遇 大 考 就 跪 了 …… 


更 抽象 地 表达 ， 可 以 说 学 习 是 一 个 不 断 发 现 自身 错误 并 改正 错误 的 迭代 过 程 。 人 是 如 此 ， 
机 器 亦 如 此 。 带 “学 习 ” 功 能 的 机 器 能 仅仅 通过 “看 ”未 知 系统 的 输入 -输出 对 〈 称 为 训练 样本 )， 
自动 实现 该 系统 内 部 算法 ,并 上 共有 举一反三 的 能 力 ( 称 为 泛 化 )， 对 不 在 训练 样本 中 的 未 知 输入 
也 能 产生 正确 的 输出 ， 完 全 不 需要 程序 员 或 算法 专家 动手 设计 中 间 算 法 ， 是 不 是 感觉 非常 酷 ? 

如 果 将 训练 样本 表示 为 : 

D= (zi,22,7,z4] 

其 中 ，z; 表示 未 知 系 统 P(Z) 中 采样 得 到 的 数据 〈 每 个 元 素 都 可 表示 为 输入 -输出 对 )。 规 定 惩 
Til PRL Lf, Z) 其 参数 为 学 习 到 的 规则 f 和 独立 于 训练 样本 的 验证 样本 集 Z, 其 返回 值 为 实数 标量 ， 
称 为 惩 齐 值 ， 又 称 损 失 〈Loss)。 对 机 器 的 要 求 是 让 损失 最 小 ， 否 则 会 让 机 器 陷入 无 止境 的 重复 计 
算 中 不 得 安宁 。 运 行 在 这 些 机 器 上 的 那 恶 算法 称 为 机 器 学 习 算 法 ， 它 能 从 数据 D 中 学 习 游戏 规则 
了 〈 攒 经 验 )， 然 后 靠 学 到 的 经 验 不 断 提高 游戏 得 分 ， 最 终 获 得 整套 游戏 攻略 (训练 好 的 模型 )。 


为 了 让 机 器 自动 学 习 ， 需 要 为 机 器 准备 三 份 数 据 : 
(1) 训练 集 ， 机 器 学 习 的 样 例 。 
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(2) 验证 集 ， 机 器 学 习 阶 段 ， 用 于 评估 得 分 和 损失 是 否 达 到 预期 要 求 。 


(3) 测试 集 ， 机 器 学 习 结 束 之 后 ， 实 战 阶段 评估 得 分 。 


在 现代 社会 ， 机 器 学 习 技 术 增 强 了 网 页 搜索 、 社 交 网 络 内 容 过 滤 、 电 子 商务 网 站 广告 推荐 
系统 、 消 费 产 品 如 相机 和 智能 手机 等 方面 的 能 


机 器 学 习 系统 用 于 识别 图 像 中 的 物体 、 将 语音 转换 为 文字 、 匹 配 新 闻 条 目 、 在 搜索 中 选择 
相关 度 更 高 的 内 容 ， 以 及 推荐 用 户 感 兴趣 的 商品 等 。 在 这 些 应 用 中 越 来 越 多 地 使 用 一 类 叫 作 深 
度 学 习 (Deep Learning, DL) 的 技术 。 深 度 学 习 是 由 多 个 处 理 层 组 成 的 计算 模型 ， 可 以 通过 
学 习 获 得 数据 的 多 抽象 层 表示 。 该 方法 显著 提高 了 语音 识别 、 视 觉 目标 识别 和 检测 效果 ， 很 多 
领域 (如 药品 发 明 、 基 因 测 序 ) 也 从 中 受益 。 


























国内 外 大 量 互 联网 公司 、 高 校 和 科研 机 构 逐 步 加 大 深度 学 习 技术 的 投入 ， 在 越 来 越 多 的 实 
REN A 用 ( 见 图 1-1)。 
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图 1-1 ”国外 使 用 深度 学 习 技术 的 机 构 


11 SZK, TUER 


REFS- ERA, BERERA F 2012 年 多 伦 多 大 学 Geoffrey Hinton 的 学生 
Alex Krizhesky 在 ILSVRC (ImageNet Large Scale Visual Recognition Challenge, ImageNet 大 规 
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模 视 觉 识别 竞赛 ，http://image-net.org/challenges/LSVRC/) 中 使 用 深度 学 习 方 法 一 举 夺 得 图 像 分 
类 、 目 标定 位 两 个 项 目 冠 军 ， 远 远 拉 开 了 与 第 二 名 传统 计算 机 视觉 方法 ) 成 绩 的 差距 。 


如 图 1-2 所 示 为 Alex 在 比赛 中 使 用 的 深度 学 习 模型 AlexNet 结构 。 注意 到 网 络 分 成 上 下 两 
部 分 ， 分 别 运 行 在 两 块 GPU (Graphics Processing Unit) 上 ， 其 中 虚线 表示 两 块 GPU 之 间 的 数 
据 通信 。 事 实 上 ， 该 模型 已 成 为 深度 学 习 的 模板 结构 ， 一 些 新 模型 CVGG/GoogLeNeO. 均 在 
AlexNet 基础 上 改进 得 到 。 





3 X 2242 48 X55? 





192x13? 192X13? 








48X55? 








图 1-2 Alte 

为 什么 深度 学 习 在 2012 年 而 不 是 其 他 时 间 爆 发 ? 主要 有 3 个 有 利 因素 : 
(1) 更 大 的 数据 集 ， 如 ImageNet。 

(2) 新 的 深度 学 习 技 术 ， 如 ReLU. Dropout 等 技术 。 

(3) 新 的 计算 硬件 ， 如 GPU。 

我 们 先 看 看 国外 的 深度 学 习 有 哪些 进展 。 


1.2 MERKE 


1.2.1 ”谷歌 与 微软 


Google 在 Geoffrey Hinton 等 大 牛 的 带领 下 ， 在 理论 与 技术 方面 一 直 保 持 世 界 领 先 地 位 。 利 
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用 GoogLeNet, 在 2014 年 ILSVRC 中 其 分 类 错误 率 低 至 6.66%。 


基础 平台 包括 早期 基于 大 规模 CPU 集群 的 DistBelief (由 16000 个 计算 节点 构成 ) 和 近期 
开放 的 支持 GPU 加速 的 TensorFlow. 2016 年 朋友 圈 刷 屏 的 “阿尔 法 狗 ”(AlphaGo ) 也 是 Google 
强大 深度 学 习 的 具体 案例 之 一 。 


Microsoft 在 2015 年 ILSVRC 目标 检测 任务 中 使 用 深度 残余 学 习 框 架 〈Deep Residual 
Learning Framework) 取得 绝对 优势 ， 赢得 200 个 类 目 中 194 个 最 佳 检 出 率 , 平均 检 出 概率 高 达 
62% (2014 年 同一 任务 最 好 结果 为 37%)。 基 于 Caffe 实现 的 Fast-RCNN (作者 为 Ross Girshick) 
在 目标 识别 领域 占有 重要 地 位 。 


Microsoft 在 基础 平台 方面 也 势头 强劲 ，2015 年 推出 的 Azure Machine Learning Studio 有 大 
量 的 机 器 学 习 算 法 ， 适 合用 来 构建 预测 分 析 解 决 方案 。 这 些 算法 可 用 于 一 般 的 机 器 学 习 ， 如 回 
归 分 析 、 分 类 、 聚 类 和 异常 检测 ， 且 每 一 个 都 可 以 解决 不 同类 型 的 机 器 学 习 问 题 。 为 其 作 支 撑 
的 不 仅 有 高 可 扩展 性 .支持 CPU/GPU 计算 的 Minerva 及 分 布 式 深度 学 习 训练 系统 Adam、CNTK， 
还 有 利用 Catapult 加 速 深度 卷 积 神经 网 络 (DCNN) 的 项 目 也 在 进行 中 。 


1.2.2 Facebook, ME 5385 NVIDIA 
Facebook 于 2013 年 成 立 了 人 工 智 能 实验 室 , 在 Yann LeCun 的 带领 下 Facebook 同 纽 约 大 学 


数据 科学 中 心 在 数据 科学 、 机 器 学 习 、 人 工 智 能 领域 展开 合作 ， 代 表 性 工作 有 最 著名 的 开源 深 
度 学 习 项 目 Torch (http://torch.ch/) 和 fbcunn (https://github.com/facebook/fbcunn )。 





Amazon 本 身 是 做 laaS 平台 的 ， 看 到 机 器 学 习 如 火 如 蔡 的 发 展 ， 也 迅速 融入 并 推出 了 云 上 
的 机 器 学 习 服 务 (http://aws.amazon.com/cn/machine-learning/)， 提 供 一 种 PaaS 模式 。Amazon 
Machine Learning 提供 可 视 化 的 工具 和 向 导 , 无 须 学 习 复 杂 的 机 器 学 习 算法 和 技术 。 使 用 简单 的 
API 即 可 让 用 户 应 用 程序 轻松 获得 预测 能 力 ， 而 无 须 实现 自 定义 预测 生成 码 或 管理 任何 基础 设 
施 。 米 用 Amazon 内 部 使 用 的 机 器 学 习 方 法 ,非常 容易 扩展 而且, 使 用 Amazon Machine Learning 
不 需要 对 硬件 或 软件 事先 投入 资金 ， 只 需 按 使 用 量 付费 。 | 


另外 ,不 得 不 提 NVIDIA, 这 家 老牌 显卡 制造 商 也 将 未 来 方向 瞄准 了 深度 学 习 , 于 GTC 2015, 
2016 连续 发 布 多 款 面向 深度 学 习 的 GPU 加 速 器 硬件 (Titan X, Tesla P100)、 加 速 库 (cuDNN) 
和 解决 方案 (DIGITS DevBox、DGX-1)， 为 深度 学 习 的 普及 和 更 大 模型 的 支持 起 到 推波助澜 的 
作用 。 
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1.3 PHE 


1.3.1 BAT 在 路 上 


百度 是 国内 较 早 开展 深度 学 习 研 究 的 企业 ， 于 2013 年 年 初创 立 了 百度 深度 学 习 实 验 室 
(Institute of Deep Learning，IDL，http://idl.baidu.com/)， 斯 坦 福 大 学 教授 、Google 大 脑 创 始 人 
Andrew Ng 随 后 加入 。 IDL 研究 方向 包括 深度 学 习 & 机 器 学 习 、 机 器 人 、 人 机 交互 、3D 视觉 、 
图 像 识 别 、 语 音 识 别 等 ， 同 时 开展 了 一 系列 深度 学 习 相 关 的 创新 项 目 ， 如 无 人 机 、 智 能 自行 车 
DuBike、 自 动 驾 驶 汽车 、 智 能 眼镜 BaiduEye 等 。 


百度 在 深度 学 习 计 算 平 台 基 础 设施 建设 方面 一 直 走 在 国内 互联 网 公司 的 前 列 ， 百 度 在 
ImageNet 挑战 中 取得 的 成 绩 得 益 于 其 超级 计算 机 Minwa (36 个 服务 器 节点 , 每 个 节点 2 个 六 核 
Xeon E5-2620 和 4 个 NVIDIA Tesla K40m GPU )。 为 了 提高 深度 学 习 算 法 的 计算 速度 ， 百 度 在 
GPU 和 CPU 上 做 了 很 多 优化 ， 发 表 了 一 些 深度 学 习 算 法 GPU 加 速 的 论文 (虽然 中 间 有 点 小 插 
曲 )。 经 过 这 些 工 作 ， 百 度 也 意识 到 GPU. CPU 在 深度 学 习 应 用 中 的 成 本 效率 、 能 耗 效率 和 目 
标 间 的 差距 。 在 充分 考量 各 种 芯片 的 特性 后 ,可 编程 、 低 功 耗 并 拥有 超 强 并 行 计算 能 力 的 FPGA 
走 进 了 百度 工程 师 们 的 视野 。 百 度 开 始 尝试 用 FPGA 打造 AI 专 有 芯片 ， 并 成 就 了 第 一 版 AI 专 
有 芯 片 版 碧 度 大 脳 一 一 FPGA 版 百度 大 脑 。 这 使 得 百度 成 为 了 全 球 最 早 将 FPGA 规模 应 用 在 人 
工 智能 领域 的 公司 。 


阿里 巴巴 作为 电子 商务 巨头 ， 很 早 就 看 到 了 深度 学 习 在 商品 检索 方面 的 应 用 价值 ， 在 阿里 
巴巴 图 像 搜 索 的 领军 人 物 、 阿 里 巴巴 搜索 事业 部 研究 员 华 先 胜 的 带领 下 迅速 将 深度 学 习 技 术 成 
功 应 用 到 手机 淘宝 图 像 搜 索 业 务 一 一 拍 立 淘 中 。2015 年 “ 双 11” 当 天 , 上 千 万 消費 者 使用 了 折 
立 淘 功 能 ， 引 导 了 数 千 万 元 的 销售 额 。 拍 立 淘 上 线 一 年 以 来 ， 所 图 盖 的 类 目 范畴 已 经 从 最 开始 
的 女装 ， 发 展 到 目前 的 男女 装 、 和 鞋 包 、 配 饰 、 食 品 、 数 个 、 家 居 、 日 用 百货 、 内 衣 、 瓶 饮 等 十 
余 个 类 目 。 与 通用 搜索 主要 依靠 字 节 不 同 , 图 像 搜 索 被 主要 定义 为 “以 图 搜 图 ”。 据 华 先 胜 介绍 ， 
图 像 搜 索 的 第 一 步 是 训练 计算 机 进行 图 像 理 解 ， 也 就 是 通过 计算 机 将 图 片 中 的 要 素 , 包括 人 像 、 
颜色 、 纹理 等 具体 特征 以 及 深度 学 习 产 生 的 图 像 描 述 ， 转 换 为 类 似 于 文字 的 “视觉 词 ”， 编 成 索 
引 之 后 ， 才 能 再 进行 第 二 步 一 一 图 像 搜 索 。 图 像 搜 索 仍 有 很 多 未 知 领域 有 待 探索 。 在 华 先 胜 看 
来 ， 能 推动 图 像 搜 索 下 一 步 突破 的 关键 有 三 点 : 深度 学 习 、 大 数据 分 析 和 大 量 用 户 使 用 反馈 。 
环顾 国内 外 ， 似 乎 具有 阿里 巴巴 能 够 同时 具备 这 三 个 条 件 。 对 于 “ 拍 立 淘 ” 的 未 来 ， 华 先 胜 表 
示 ， 拍 立 淘 将 会 拓展 到 更 多 领域 ， 力 争 成 为 人 们 获取 信息 (包括 购物 、 教 育 、 娱 乐 、 新 闻 、 知 
识 等 ) 的 一 个 快捷 、 有 趣 、 有 效 的 入 日 ， 而 不 仅仅 是 搜寻 商品 的 入 口 。 
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阿里 巴巴 在 基础 平台 建设 方面 起 步 昌 晚 , 但 发 展 迅 速 , 利用 装备 NVIDIA Tesla GPU 的 高 性 
能 计算 集群 ， 不 仅 完 美 支撑 拍 立 淘 、 搜 索 、OCR、 绿 网 、 神 马 语音 、iDST 等 内 部 业务 ， 还 进 一 
步 在 2015 年 10 月 14 日 云 档 大 会 上 正式 宣布 通过 阿里 云 对 外 提供 公共 云 上 的 HPC 服务 
(https://www.aliyun.com/product/hpe )， 使 普通 用 户 也 有 机 会 享受 高 性 能 计算 平台 带 来 的 高 效 性 
和 便利 性 。 目 前 越 来 越 多 的 中 小 企业 选择 租用 云端 HPC 服务 器 , 而 不 是 自 建 机 房 做 繁杂 元 长 的 
运 维 工作 。 最 新 机 型 G4 配备 了 双 Tesla M40 作为 加 速 器 , 可 大 大 提高 深度 学 习 应 用 的 运行 效率 ， 
基于 Docker 的 快速 环境 部 署 大 幅 降 低 了 客户 使 用 深度 学 习 框 架 的 门槛 ， 可 请 开 箱 即 用 。 




















腾讯 拥有 海量 的 社交 关系 数据 ,在 深度 学 习 应 用 方面 潜力 巨大 , 目前 主要 应 用 为 语音 识别 、 
图 像 识 别 和 广告 推荐 。 腾 讯 优 图 (BestImage，http://open.youtu.qq.com/) 是 腾讯 旗下 顶级 的 机 
器 学 习 研 发 团队 ， 专 注 于 图 像 处 理 、 模 式 识 别 、 深 度 学 习 等 方向 ， 在 人 脸 检 测 、 五 官 定位 、 人 
脸 识别 、 图 像 理解 领域 都 积累 了 完整 解决 方案 和 领先 的 技术 水 平 。 























腾讯 在 深度 学 习 基础 平台 方面 经 历 多 次 升级 逐步 完善 ， 在 Mariana 基础 上 针对 多 种 应 用 打 
造 出 Mariana DNN, Mariana CNN, Mariana Cluster 等 基础 框架 ， 在 微 信 语音 识别 、 微 信 图 像 识 
别 方面 均 已 成 功 沙 地 ， 在 图 文 类 效果 广告 点 击 率 提升 方面 也 取得 初步 的 应 用 。 











1.89.2 BHA 





中 国 科学 院 计 算 所 计算 机 体系 结构 国家 重点 实验 室 未 来 计算 组 陈云 者 研究 员 领 导 的 团队 提 
"od c MU ea 
能 高 效 处 理 任 意 规 模 、 任 意 深 度 的 人 工 神 经 网 络 ， 以 不 到 通用 处 理 器 1/10 的 面积 和 功 耗 达 到 了 
100 倍 以 上 的 神经 网 络 处 理 速度 ， 性 能 功 耗 比 提升 了 1000 倍 。 该 项 工作 意味 着 ， 处 理 器 结构 设 
计 的 创新 ， 有 望 在 未 来 使 得 手机 移动 终端 具备 谷歌 大 脑 级 别 的 认 知 处 理 能 力 。2014 年 12 H, 
新 推 出 的 寒 武 外 2 号 神经 网 络 处 理 器 (DaDianNao) 荣获 年 度 Micro 最 佳 论 文 。“DaDianNao” 
又 有 多 项 突破 ， 性 能 继续 大 幅度 提升 ， 与 通用 芯片 和 GPU 相 比 ， 计 算 速度 提高 几 十 倍 ， RU 
有 十 分 之 一 ， 整 体能 效 提 高 450 倍 。 陈 云 界 透 露 ， 这 种 芯片 将 用 在 国产 手机 上 。“* 寒 武 纪 ” 世 ) 
执行 的 是 一 种 与 通用 计算 完全 不 同 的 指令 集 一 一 电脑 语 *DianNaoYu"。 所 谓 指令 集 就 是 电脑 4 
言 ”， 其 直接 面 对 大 规模 神经 元 和 突 触 的 处 理 ， 一 条 指令 即 可 完成 一 组 神经 元 的 处 理 。 模拟 实验 
表明 ,“ 寒 武 纪 ”相对 于 传统 的 执行 x86 指令 集 的 芯片 ， 有 两 个 数量 级 的 性 能 提升 。 与 传统 的 通 
Mb 集 相 比 ,“ 电 脑 语 ”显然 更 类 似 于 人 类 大 脑 的 学 习 方 式 ， 因 此 有 人 将 其 称 为 “下 一 代 
工 智能 技术 ”“ 电 脑 语 ”被 计算 机 体系 结构 领域 顶级 国际 会 议 ISCA 2016 接收 ， 其 评分 在 近 
300 篇 投稿 中 排名 第 一 。 陈 天 石 研 究 员 表示 ,“ 寒 武 纪 ” 不 是 代替 中 央 处 理 器 的 颠 先 式 革 命 。 从 
目前 的 情況 来 者 , “EERE ED ee | RAE EE “我 们 的 优势 主要 集中 在 

































































8 TRESS): 21 天 实战 Caffe 


人 脸 识别 、 声 音 识 别 等 人 工 智 能 方面 。 比 如 ， 传 统 的 手机 或 个 人 电脑 主板 上 嵌入 “ 赛 武 纪 ” 世 
片 后 ， 将 极 大 地 提高 处 理 这 类 任务 的 速度 ， 并 且 降 低能 耗 ”“ 








科大 讯 飞 股份 有 限 公司 Chttp://www.iflytek.com/) 是 一 家 专业 从 事 智 能 语音 及 语言 技术 、 人 
工 智能 技术 研究 、 软 件 及 芯片 产品 开发 、 语 音信 息 服务 及 电子 政务 系统 集成 的 国家 级 骨干 软件 
企业 。 该 公司 的 智能 语音 核心 技术 代表 了 世界 最 高 水 平 ， 是 我 国产 业 化 实体 中 在 语音 技术 领域 
基础 研究 时 间 最 长 、 资 产 规模 最 大 、 历 届 评 测 成 绩 最 好 、 专 业 人 才 最 多 及 市 场 占有 率 最 高 的 公 
司 。 语 音 技术 实现 了 人 机 语音 交互 ， 使 人 与 机 器 之 间 的 沟通 变 得 像 人 与 人 沟通 一 样 简单 。 此 外 ， 
语音 技术 还 包括 口语 评测 、 语 音 编 码 、 音 色 转 换 、 语 音 消 品 和 增强 等 技术 ， 有 着 广阔 的 应 用 空 
同 。 科大 讯 飞 作为 中 国 最 大 的 智能 语音 技术 提供 商 , 在 智能 语音 技术 领域 有 着 长 期 的 研究 积 畦 ， 
并 在 语音 合成 、 语 音 识 别 、 口 语 评测 、 自 然 语言 处 理 等 多 项 技术 上 拥有 国际 领先 的 成 果 。 





























1.8.3 ”企业 热 是 风向 标 


近 两 年 国内 利用 深度 学 习 技 术 的 创业 公司 如 南 后 春笋 般 涌现 。 





商 汤 科技 SenseTime (http://www.sensetime.com/) 致力 于 引领 人 工 智能 核心 “深度 学 习 ” 技 
术 突 破 ， 构 建 人 工 智 能 、 大 数据 分 析 行 业 解 决 方案 。 在 人 工 智 能 产业 兴起 的 大 背景 下 ， 商 汤 科 
技 拥有 在 技术 、 人 才 、 专 利 上 多 年 的 积累 ， 聚 集 了 一 批 出 色 的 华人 深度 学 习 、 计 算 机 视觉 科学 
家 ， 以 及 来 自 于 谷歌 、 百 度 、 微 软 、 联 想 等 产业 界 领军 人 物 。 在 人 脸 识别 、 文 字 识 别 、 人 体 识 
别 、 车 辆 识别 、 物 体 识 别 、 图 像 处理 等 前 瞻 性 应 用 技术 上 ， 商 汤 科技 均 拥 有 核心 原创 技术 和 持 
续 进 行 学 术 研 发 的 潜力 ; 在 业务 上 ， 商 汤 集 团 深 耕 金 融 、 移 动 互 联网 、 安 防 监控 三 大 行业 ， 已 
与 中 国 移动 、 银 联 、 京 东 、 拉 卡拉 、 华 为 、 小 米 、 新 浪 微 博 、 科 大 讯 飞 、 东 方 网 力 、 英 伟 达 等 
知名 公司 开展 深度 合作 ， 推 动 行业 产品 智能 化 升级 ， 开 拓 中 国 原创 人工 智 能 技术 更 多 可 能 。 



































Face+HTM (http://www.faceplusplus.com.cn/) 是 北京 旷 视 科 技 (Megvii) 有限 公司 旗下 的 新 
型 视觉 服务 平台 ， 虽 在 提供 简单 易 用 、 功 能 强大 、 平 台 碌 容 的 新 一 代 视觉 服务 。Face++ 团 队 专 
注 于 研发 世界 最 好 的 人 脸 检 测 、 识 别 、 分 析 和 重建 技术 ， 通 过 融合 机 器 视觉 、 机 器 学 习 、 大 数 
HIZMA 3D 图 形 学 技术 ， 臻 力 于 将 最 新 、 性 能 最 好 、 使 用 最 方便 的 人 脸 技术 提供 给 广大 开发 
者 和 用 户 。 通 过 提供 云端 API、 离 线 SDK， 以 及 面向 用 户 的 自主 研发 产品 形式 ， 将 人 脸 识别 技 
术 广 泛 应 用 到 互联 网 及 移动 应 用 场景 中 。 





















































eas Chttp://www.airtake.me/) 成 立 于 2014 年 ， 专 注 于 云 服务 ， 致 力 于 通过 智能 云 为 厂商 
提供 由 普通 硬件 转 变 为 智能 硬件 的 完整 技术 解决 方案 分 布 式 架构 的 全 球 部 署 ， 每 日 超过 10TB 
和 千 万 人 次 的 数据 吞吐 量 原生 图 像 识 别 与 机 器 学 习 能 力 。 涂 鸦 在 云 计算 技术 、 便 件 生产 以 及 海 
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外 市 场 运营 方面 有 丰富 的 经 验 。 涂 牲 在 技术 上 获得 了 阿里 云 和 亚马逊 云 服务 的 文 持 。 


HS oc RHEE Chttp://www.deepglint.com/) 成 立 于 2013 年 年 初 ， 是 全 球 第 一 家 采用 三 维 计算 机 
视觉 技术 ， 将 人 工 智 能 应 用 于 商业 领域 的 科技 公司 ， 致 力 于 让 计算 机 像 人 一 样 看 懂 这 个 世界 ， 
并 且 把 这 一 技术 率先 用 在 了 安防 监控 和 智能 交通 领域 。 让 计算 机 看 懂 世 界 , 是 格 灵 深 暗 的 使 命 。 
因为 感知 技术 是 所 有 存在 于 真实 世界 里 的 人 工 智 能 的 信息 入 口 。 近 年 来 ， 深 度 学 习 和 深度 视觉 
成 为 了 计算 机 视觉 领域 最 伟大 的 创新 和 进展 。 格 灵 深 瞳 是 全 世界 最 早 把 这 些 技术 商业 化 的 公司 
之 一 。 结 合 深度 学 习 和 深度 视觉 技术 建造 视觉 传感器 网 络 ， 有 效 地 赋予 视频 监控 、 智 能 交通 以 
及 智能 驾驶 等 领域 全 新 的 价值 。 




















Dress+ (K+, http://www.dress-plus.com/ ) 成 立 于 2014 年 ， 提 供 在 线 视觉 识别 技术 与 社交 网 
络 搜索 时 尚 商品 的 服务 。 衣 + 边 看 边 买 搜索 引擎 是 领先 的 商品 图 像 特征 建 模 方 案 ， 基 于 深度 学 习 和 
传统 方法 融合 商品 图 像 特征 建 模 算法 ， 既 刻画 了 高 层 语义 特征 ， 又 兼顾 了 底层 图 像 特征 ， 大 大 加 
强 了 衣 + 引 | 擎 对 同 球 和 相似 球 商 品 的 检索 能 力 ， 帮 助 用 户 快速 找到 感 兴趣 的 商品 图 像 。 使 用 衣 + 独 
有 的 高 效 特 征 量 化 压缩 算法 ， 在 保证 检索 效果 和 原始 特征 基本 一 致 的 条 件 下 可 以 将 单条 记录 特征 
压缩 到 IKB 以 内 ， 极 大 地 提高 了 搜索 引擎 的 可 扩展 性 。 衣 + 高 实时 性 搜索 引擎 在 单机 单线 程 条 件 
下 完成 2 千 万 条 目的 检索 时 间 小 于 1s, 通过 并 行 优化 的 系统 支持 单机 亿 级 条 目的 检索 时 间 小 于 1s。 
































Linkface Chttp://www.linkface.cn/) 是 一 家 人 脸 识 别 技术 研发 公司 ， 曾 取得 FDDB 人 脸 检 测 
公开 测试 世界 第 一 、300-W Benchmark 准确 率 世界 第 一 、LFW 人 脸 识别 准确 率 达 99.5% 以 上 等 
一 系列 成 绩 。Linkface 开发 了 基 十 深度 学 习 的 人 脸 检 测 创新 算法 ， 无 论 孤 身 一 人 还 是 置身 人 税 ， 
抑或 是 处 在 侧 脸 、 遮 挡 、 模 糊 等 情景 中 ， 均 能 进行 精准 检测 ，Linkface 可 准确 识别 出 眼睛 、 和 总 . 
子 等 人 脸 关 键 位 置 ， 在 表情 不 同 、 姿 态 多 样 、 械 挡 模 糊 等 状态 下 均 可 进行 精准 定位 ; 在 监控 、 
门禁 、 自 拍 、 人 证 比 对 等 场景 中 ，Linkface 的 识别 算法 能 够 提供 精准 、 便 捷 的 识别 方案 。 




















今天 的 主要 内 容 是 展现 国内 外 深度 学习 领域 一 片 欣欣 向 这 的 形势 ， 读 到 这 里 是 否 已 经 下 定 
决心 跟着 本 书 一 探 深 度 学 习 之 究竟 ?! 我 们 明天 继续 ~ 


14 fc 

1. 搜索 深度 学 习 领 域 的 先驱 者 Geoffrey Hinton, Yann LeCun、Youshua Bengio 三 大 牛 的 个 
人 主页 ， 查 看 其 最 新 动态 。 

2. 在 Coursera 上 搜索 Andrew Ng 的 机 器 学 习 课程 。 


3 了解 各 大 招聘 网 站 上 深度 学 习 相 关 岗 位 的 需求 情况 。 
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今天 让 我 们 缅怀 历史 ， 展 望 未 来 。 

深度 学 习 有 着 悠久 而 丰富 的 历史 。 在 过 去 很 长 一 段 时 期 内 备 受 冷 落 ， 而 在 最 近 5 年 ， 大 规 
模 训 练 数据 (如 ImageNet) 和 高 性 能 计算 硬件 (GPU)》 的 出 现 ， 为 这 个 领域 重新 提供 了 燃料 和 
BY HEE o 











2.1 ”传统 机 器 学 习 的 局 限 性 . 








传统 机 器 学 习 技 术 在 处 理 原始 形态 的 自然 数据 方面 有 很 大 的 局 限 性 。 


























几 十 年 来 ， 构 建 模 式 识 别 或 机 器 学 习 系统 需要 技艺 高 超 的 工程 师 和 经 验 丰富 的 领域 专家 来 
设计 特征 提取 器 (Feature Extractor)， 将 原始 数据 〈 如 图 像 的 像素 值 ) 转化 为 合适 的 中 间 表 示 形 
式 或 特征 向 量 (Feature Vector)， 学 习 子 系统 (通常 为 分 类 器 ) 可 以 对 输入 模式 进行 检测 或 分 类 ， 
如 图 2-1 所 示 。 


原始 数据 特征 提取 器 分 类 器 /检测 器 
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图 2-1 传统 机 器 学 习 处 理 模式 


ww ai bbt. com DODOODDOD 


第 2 天 深度 学 习 的 过 往 11 








训 学 习 方法 则 不 需要 人 工 设计 特征 提取 器 ， 而 是 由 机 器 日 动 学 习 获 得 ， 特 别 适 用 于 变化 
Men cere. 具有 非常 优 qum TE. 


: 


深度 学 习 不 是 一 天 建成 的 ， 有 一 个 长 期 进化 的 过 程 ， 我 们 来 
22 ”从 表示 学 习 到 深度 学 习 


在 表示 学 习 CRepresentation Learning) 系统 中 ， 直 接 以 原始 数据 形式 提供 机 器 输入 ， 自 动 
发 现 用 于 检测 和 分 类 的 表示 (Representation )。 深 度 学 习 是 一 种 多 层 表示 学 习 方 法 ， 用 简 rene 
线性 模块 构建 而 成 ， 这 些 模块 将 上 一 层 表 示 〈 从 原始 数据 开始 ) 转化 为 更 高 层 、 更 抽象 的 表示 。 
当 一 个 学 习 系 统 由 足够 多 这 样 简单 的 非 线性 模块 构建 时 ， 可 以 学 习 非 常 复杂 的 功能 


于 分 类 问题 ， 高 层 表 示 能 强调 重要 的 类 别 信息 ， 同 时 抑制 无 关 的 背景 信息 。 一 幅 图 像 总 
i ee ee ， 第 一 层 学 习 到 的 特征 为 边缘 信息 ， 即 图 像 某 个 位 置 是 否 存 
在 特定 朝向 的 边缘 ; 第 二 层 检测 边缘 信息 按 特定 方式 排列 组 成 的 基本 图 案 ， 而 不 关心 边缘 位 置 
的 变化 ; 第 三 层 " kk A ALAR, 対応 典型 物体 的 部 件 , Je s FE EH SEALS UI. 
如 图 2-2 所 示 。 深 度 学 关键 的 方面 是 这 些 特征 层 不 是 由 专家 设计 的 ， 而 是 使 用 通用 学 习 方 
CA, 这 些 从 低 到 高 的 “表示 ”是 人 类 无 法 预 估 的 ， 完 全 由 机 器 决定 哪些 特 
征 是 自己 需要 的 ， 哪 些 是 可 以 抑制 的 





原始 图 像 低级 特征 中 级 特征 高 级 特征 





图 2-2 ”表示 学 习 中 间 特 征 


深度 学 习 十 分 擅长 在 高 维 数据 中 发 现 复 杂 结 构 ， 可 应 用 于 科学 、 商 业 和 政务 等 很 多 领域 ， 
在 图 像 识 别 、 语 音 识别 中 打破 多 项 纪录 。 更 惊人 的 是 ， 在 自然 语 sns (特别 是 主题 分 类 、 人 铝 
法 分 析 、 问 答 系 统 和 语言 翻译 ) 中 产生 了 大 量 有 价值 的 结果 。 
深度 学 习 只 需 少 量 人 工 介 入 ， 非 常 适合 当前 大 规模 计算 系统 和 海量 数据 ， 在 不 久 的 将 来 会 
有 更 多 的 成 功 案例 。 当 前 正在 开发 的 用 于 深度 神经 网 络 的 新 学 习 算 法 和 架构 将 加 快 这 个 进程 。 
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23 监督 学 习 


机 器 学 习 不论 深浅 ) 最 普遍 的 形式 是 监督 学 习 。 


设想 我 们 希望 构建 一 个 可 以 分 类 图 像 包含 内 容 房子、 车 、 人 和 宠物 ) 的 系统 。 首 先 收集 
大 量 关 于 房子 、 车 、 人 和 宠物 的 图 像 数据 集 ， 每 张 图 像 都 按照 其 类 别 打 标 签 。 


在 训练 阶段 ， 向 机 器 送 入 一 张 图 像 ， 产 生 一 个 得 分 向 量 ， 每 个 元 素 对 应 一 个 类 别 。 我 们 和 希 
望 真 实 类 别 在 所 有 类 别 中 得 最 高 分 (实际 上 在 训练 前 是 不 会 发 生 的 )。 我 们 通过 计算 目标 函数 来 
度量 输出 得 分 与 期 望 形式 得 分 的 差异 (或 距离 ), 之 后 机 器 改变 内 部 可 调 参数 来 降低 这 个 目标 函 
数 。 可 调 参数 为 实数 ， 常 被 称 为 权 值 ， 可 被 看 作 定义 机 器 输入 -输出 函数 的 “旋钮 ”。 在 典型 深 
度 学 习 系 统 中 ， 可 能 有 上 亿 个 可 调 权 值 ， 同 时 会 有 上 亿 个 带 标 签 的 训练 样本 用 于 训练 该 机 器 。 


为 了 恰当 调节 权 值 向 量 ， 学 习 算 法 计算 梯度 向 量 ， 表 示 每 个 权 值 增加 一 个 微小 值 时 目标 函 
数 的 变化 量 ， 之 后 权 值 向 量 根据 梯度 向 量 的 相反 方向 来 调节 。 目 村 函数 在 所 有 训练 样本 上 取 平 
均 ， 可 看 作 权 值 向 量 所 在 高 维 空间 的 丘陵 平面 。 负 梯度 向 量 指示 当前 平面 最 陡 的 下 降 方向 ， 将 
目标 函数 带 入 距离 最 小 值 更 近 的 地 方 ， 输 出 误差 在 平均 意义 上 更 低 。 





在 实际 中 ， 大 多 数 工程 师 都 使 用 随机 梯度 下 降 (Stochastic Gradient Descent, SGD) 方法 ， 
包括 输入 少量 样本 、 计 算 输 出 和 误差 、 计 算 这 些 样 本 的 平均 梯度 、 根 据 梯度 调节 权 值 。 对 训练 
集中 大 量 的 小 样本 集 重复 该 过 程 ， 直 到 目标 函数 平均 值 停止 下 降 。 它 之 所 以 被 称 作 随机 梯度 下 
降 法 ， 是 由 于 每 个 小 样本 子 集 提供 了 所 有 样本 平均 梯度 的 带 噪声 估计 。 相 比 更 精确 的 优化 技术 ， 
这 个 简单 方法 通常 能 更 快 地 找到 一 组 好 的 权 值 。 训 练 完成 后 ， 在 一 组 不 同 的 样本 〈 称 为 测试 集 ) 
上 测试 系统 性 能 ， 目 的 是 测试 机 器 泛 化 能 力 一 一 它 在 训练 阶段 没有 见 过 的 新 输入 上 产生 合理 输 
出 的 能 力 。 





在 很 多 机 器 学 习 实 际 应 用 中 ， 在 人 工 特征 上 使 用 线性 分 类 器 。 二 分 类 线性 分 类 器 计算 特征 
问 量 元 素 的 加 权 和 。 如 果 加 权 和 高 于 某 个 门限 ， 输 入 将 被 分 到 一 个 特定 类 别 。 


1960 年 以 后 ， 线 性 分 类 器 的 局 限 性 开始 被 认识 到 ， 它 只 能 将 输入 空间 切 分 为 非常 简单 的 区 
域 ， 即 由 一 个 超 平面 分 离 的 半空 间 。 对 于 像 图 像 和 语音 识别 这 类 问题 ， 需 要 输入 -输出 函数 对 输 
入 的 非 相 关 变 化 〈 位 置 变化 、 方 向 变化 、 光 照 变化 、 语 音 的 高 音 和 低音 变化 ) 不 敏感 ， 而 对 类 
别 敏感 (如 白 狼 和 萨摩 耶 厂 )。 在 像素 级 别 ， 两 张 不 同 姿 态 、 不 同 环境 下 萨摩 耶 犬 的 照片 会 有 极 
大 的 不 同 ， 而 同样 背景 、 同 样 位 置 的 萨摩 耶 犬 和 白 狼 照片 可 能 非常 相似 。 对 直接 操作 图 像 像 素 
的 线性 分 类 器 或 其 他 “ 浅 层 ” 分 类 器 可 能 不 容易 区 分 后 两 张 照片 ， 同 时 将 前 两 张 照片 放 在 同一 
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类 。 这 就 是 为 什么 浅 层 分 类 器 需要 好 的 特征 提取 器 一 一 有 选择 性 地 产生 图 片 中 重要 类 别 信息 的 
表示 ， 同 时 对 无 关 信息 如 姿态 具有 不 变性 一 一 以 解决 选择 无 关 困 境 。 





为 了 让 分 类 器 更 强大 ， 可 以 使 用 广义 非 线性 特征 以 及 核 函 数 方法 。 但 广义 特征 〈 如 高 斯 核 
函数 ) 泛 化 能 力 差 ， 常 规 方 法 是 手动 设计 好 的 特征 提取 器 ， 而 这 需要 大 量 工 程 经 验 和 领域 专家 
才能 完成 。 


如 果 好 的 特征 可 以 使 用 通用 学 习 方 法 自动 学 到 ， 上 述 问 题 都 可 以 避免 。 这 是 深度 学 习 的 核 
心 优势 。 


一 个 深度 学 习 架 构 是 将 简单 模块 多 层 堆 合 ， 大 多 数 模块 是 具备 学 习 能 力 的 ， 能 计算 非 线性 
输入 -输出 映射 。 每 个 模块 将 它 的 输入 变换 ， 提 高 可 选择 性 和 表示 不 变性 。 多 个 非 线 性 层 (5-20 
层 ) 构成 的 系统 可 以 实现 非常 复杂 的 函数 ， 例 如 同时 做 到 对 类 间 差 异 敏感 〈 区 分 萨摩 耶 犬 和 自 
狼 ) 和 对 类 内 差异 不 敏感 〈 萨 摩 耶 犬 在 不 同 背景 、 姿 势 、 光 照 和 周边 物体 下 的 照片 都 能 正确 识 
别 )。 


2.44 反 向 传播 算法 


从 最 早 的 模式 识别 (Pattern Recognition) 时 期 开始 ， 研 究 者 的 目标 就 是 用 可 训练 的 多 层 网 
络 取代 人 工 特征 工程 。 但 该 解决 方案 并 没有 被 广泛 认可 ， 直 到 20 世纪 80 年 代 中 期 ， 研 究 者 才 
证 明 多 层 架构 可 以 通过 SGD 训练 。 只 要 模块 是 其 输入 和 内 部 权 值 的 相对 平滑 函数 ， 就 可 以 使 用 
反 向 传播 步骤 计算 梯度 。 在 20 世纪 70. 80 年 代 ， 几 个 不 同 的 研究 组 分 别 独 立 发 现 该 思路 可 行 
且 的 确 可 用 。 

利用 反 向 传播 方法 计算 目标 函数 相对 多 层 网 络 权 值 的 梯度 过 程 ， 其 实 就 是 《高 等 数学 》 中 
求 导数 链 式 法 则 的 工程 应 用 。 

如 图 2-3 (FE) 所 示 为 一 个 具有 双 隐 层 深度 前 馈 网 络 的 前 向 传播 计算 流程 ,每 层 我 们 选择 其 
中 一 个 节点 进行 计算 演示 。 | 

从 输入 单元 到 第 一 个 隐 层 Hl 计算 如 下 : 

対 HI 层 的 每 个 单元 j， 其 值 yj = f(z)),zj = Y Wixi ， 其 中 i 取 值 遍历 所 有 输入 层 节点 ，z) 
是 对 前 一 层 所 有 节点 的 加 权 和 ， 这 里 省 略 了 偏 置 项 。 网 络 中 使 用 非 线 性 函数 了 对 进行 非 线 性 
变换 ， 得 到 该 层 输出 y。 
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A. H1 到 H2 计算 如 下 : 
对 H2 层 的 每 个 单元 k， 其 值 yk = S (2t) za =}, wiry;， Hep j RE HI EE 
从 H2 到 和 输出 层 计算 如 下 : 
对 输出 层 的 每 个 单元 !， 上 其 值 y= f(z).z =>) Wayi , Hp k UE TAT H2 bU A 


如 图 2-3 H) 所 示 为 同一 个 深度 前 馈 网 络 的 反 向 传播 计算 流程 ,每 层 我 们 仍然 选择 其 中 一 


个 节点 进行 计算 演示 。 
Output units o (7) 
WW 






Hidden units H2 


Hidden units H1 ( ) 





の O 


图 2-3 ”前 向 传播 ( 左 ) 和 反 向 传播 ( 右 ) 计算 流程 


Input units 


每 层 首先 计算 相对 于 该 层 输出 节点 的 误差 梯度 ， 即 所 有 来 自 相 对 于 后 一 层 输 入 节点 的 误差 
梯度 的 加 权 和 。 之 后 使 用 链 式 法 则 将 误差 梯度 传递 至 该 层 输入 节点 。 输 出 单元 的 误差 梯度 通过 
对 代价 函数 (或 损失 函数 ) 求 导 得 到 ， 假 设 输出 层 单元 1 对 应 的 代价 函数 项 为 E-0.5(yr-0y, HE 
中 尺 为 期 望 输出 值 ， 可 计算 相对 于 yy 的 偏 导数 为 yw。 由 于 p=Rz)， 所 以 代价 函数 相对 于 的 
偏 导 数 为 : 

QE 0E n 


Oz / Cv Oz 1 


-2(w-t)f'() 


从 输出 单元 到 第 二 个 隐 层 H2 计算 如 下 : 





对 H2 层 的 每 个 单元 k， 其 误差 梯度 ; か ーー D wu E. SEAT RAB 
Oy; 
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有 输出 层 节 点 。 
P — A BE êz DE y DR 
同 理 ， 可 得 出 Hl EÜGOBUEOU — = y, ,一 .二 =》 — Tb, 其 中 を Hui H2 
Oy; Oz, Oyj Oy, Oz. ` 


层 所 有 节点 。 


OE 8 8E Ov f a 
MAJEE SE LX AM uy OE OI iw, bp BOR H BTA 


Ov; Oz; OX; ^Qy; Oz; 








通过 上 面 的 公式 可 以 了 解 到 ， 反 向 传播 算法 的 关键 一 点 就 是 代价 函数 相对 于 一 个 模块 输入 
的 导数 (或 梯度 )， 可 以 通过 目标 函数 相对 于 该 模块 输出 的 导数 反 向 传播 求 得 。 反 向 传播 公式 可 
以 重复 应 用 ， 将 梯度 从 顶层 输出 (网 络 产 生 预 测 的 位 置 ) 通过 所 有 模块 传递 到 底 (输入 层 )。 所 
有 这 些 中 间 梯 度 被 计算 出 来 后 ， 再 计算 代价 目标 函数 相对 于 每 个 模块 内 部 权 值 的 梯度 就 非常 容 


OE Oy; Oz Ay 
JT. MWAZI H ERAAN, Juego E OE Py Ss E Dy 


-— ^ E, s 
Ow, Oy; Oz; Ow; Oy; Oz, 





2.5 “ 卷 积 神经 网 络 


有 一 种 特殊 类 型 的 深度 前 馈 网 络 ， 训 练 更 简单 ， 泛 化 能 力 比 相 邻 层 用 全 连接 更 好 ， 这 就 是 
卷 积 神经 网 络 ConvNet)。 当 神经 网 络 被 抛弃 时 ， 它 却 在 多 个 领域 取得 成 功 ， 如 今 在 计算 机 视 
觉 社区 被 广泛 接受 


ConvNet 的 四 项 基本 原则 : 局 部 互联 、 共 享 权 值 、 下 采样 以 及 使 用 多 个 卷 积 层 。 


共享 权 值 意味 着 更 少 的 参数 量 ， 下 采样 保证 了 局 部 不 变性 ， 多 特征 图 允许 不 同 卷 积 核 作为 
不 同 特征 提取 器 ， 训 练 时 使 用 反 向 传播 算法 。 典 型 的 ConvNet 架构 如 图 2-4 所 示 。 l 


a-— aw AF uw 可 ee a ABO AU ee =- デ ーー ニー ニー デー デ テン デー ビデ ーー テー 


T A A LLL L i - - L A A A A 


ai P AW ---- AW WO AM AW AW ^ 





Kd2-4 defines vg RJ 
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前 几 个 阶段 由 两 种 层 构成 : 卷 积 层 和 下 采样 层 (pooling layer)。 卷 积 层 的 单元 组 织 为 特征 
图 〈feature map)， 每 个 单元 通过 一 组 称 为 滤波 器 组 的 权 值 连接 到 上 一 层 特 征 图 的 局 部 小 块 。 局 
neris 非 线 性 单元 (如 ReLU) 处 理 。 同 一 特征 图 的 所 有 单元 共享 同一 套 滤波 器 
组 ， 而 同一 层 的 不 同 特征 图 使 用 不 同 的 滤波 器 组 。 使 用 这 种 架构 的 原因 有 两 方面 : 一 方面 ， 在 
一 组 类 似 图 像 的 数据 中 ， 局 部 像素 块 具 有 高 度 相 关 性 ， 形 成 不 同 的 、 易 检测 的 基本 图 案 ; 另 一 
方面 ， 图 像 和 其 他 信号 的 局 部 统计 有 具有 位 置 无 关 性 。 


en. 如 果 一 张 图 像 存在 某 个 基本 立案 ， 该 图 案 可 能 出 现在 任意 位 置 ， 那 么 不 同位 置 
共享 相同 权 值 可 实现 在 数据 的 不 同位 置 检测 相同 “模式 ” 一 张 特征 图 执行 的 滤波 操作 在 数 
gs “ 卷 积 层 ”名 称 由 此 而 来 。 


卷 积 层 的 任务 是 检测 前 一 层 的 局 部 连接 特征 , 而 下 采样 层 是 将 语义 相似 的 特征 融合 为 一 个 。 
-由 于 相对 位 置 特征 形成 一 个 基本 图 案 可 能 会 有 些许 变化 ， 可 靠 检测 该 图 案 可 以 使 用 粗 粒度 位 置 
实现 。 


典型 的 下 采样 器 计算 每 一 张 特征 图 (或 某 儿 张 特征 图 ) 的 局 部 小 块 最 大 值 。 相 邻 下 采样 器 
的 输入 源 相互 错开 不 少 于 一 行 或 一 列 ， 因 此 可 以 降低 表示 维度 ， 而 且 对 平移 、 形 变 不 敏感 。 


爸 积 层 - 非 线性 层 -下 采样 层 堆 登 为 一 个 基本 处 理 栈 ， 在 一 个 完整 的 网 rae Tus 
本 处 理 栈 后 再 接 入 更 多 的 卷 积 层 或 全 连接 层 。 卷 积 网 络 的 梯度 反 向 传播 过 程 与 普通 深度 网 络 一 
样 简单 ， 所 有 滤波 器 组 的 权 值 都 能 得 到 训练 。 


深度 神经 网 络 揭示 了 很 多 自然 信号 具有 复合 结构 的 特点 。 高 层 特征 可 通过 低层 特征 组 合 得 
到 。 图 像 中 ， 棱 边 经 过 局 部 组 合 可 构成 基本 图 案 ， 而 基本 图 案 组 合成 部 件 ， 部 件 又 构成 了 物体 。 
语音 和 文本 也 存在 相似 结构 ， "e 音 (sound) 到 语音 phone)， 再 到 音素 (phoneme)、 音 节 
(syllable )、 単 同 (word)、 名 子 〈sentence)。 下 采样 层 可 保证 新 的 特征 层 表 示 不 敏感 于 前 一 层 元 
素 在 位 置 和 表现 上 的 变化 。 


早 在 20 世纪 90 年 代 左右 就 已 经 有 大 量 的 卷 积 神经 网 络 应 用 案例 ， 从 用 于 语音 识别 和 文档 
阅读 的 时 间 延 迟 网 络 开始 。 文 档 阅 读 系统 将 ConvNet 与 实现 语言 约束 的 概率 模型 一 起 训练 。 
到 90 年 代 末 ， 该 系统 阅读 全 美国 10% 的 文 票 。 不 入微 软 开 发 了 一 些 基 于 ConvNet 的 光学 字符 
识别 COptical Character pocta OCR) 和 手写 体 识别 系统 站。ConvNet 在 自然 图 像 的 目标 
检测 〈 人 脸 和 手 的 检测 、 人 脸 识别 ) 中 有 大 量 实践 BID。 





21 世纪 早期 ，ConvNet 已 经 成 功 应 用 到 检测 、 分 制 和 识别 图 像 中 的 物体 和 区 域 。 所 有 这 些 
任务 有 相对 充裕 的 带 标签 数据 ， 例 如 交通 标志 识别 、 生 物 图 像 分 割 (特别 是 连接 组 )， 以 及 自然 
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图 像 中 人 脸 检 测 、 文 本 检测 、 行 人 检测 和 人 体检 测 。 近 期 ConvNet 成 功用 于 人 脸 检 测 中 。 

更 重要 的 是 ， 图 像 可 以 在 像素 级 别 打 标签 ， 在 技术 上 有 所 应 用 ， 包 括 自动 行驶 机 器 人 、 自 
动 驾 驶 汽车 .比如 Mobileye 和 NVIDIA 准备 将 基于 ConvNet 的 方法 应 用 于 即将 发 布 的 汽车 视觉 
系统 中 。 其 他 应 用 如 自然 语言 理解 和 语音 识别 中 ，ConyNet 的 重要 性 也 在 不 断 加 强 。 





除了 上 述 成 功 案例 ，ConyNet 被 主流 计算 机 视觉 和 机 器 学 习 社 区 所 名 视 ， 直 到 2012 年 的 
ImageNet 比赛 才 改 变 了 这 一 状况 。 那 一 年 深度 卷 积 网 络 应 用 到 百 万 量 级 的 数据 集 ， 包 括 1000 
个 不 同类 别 , 获得 优异 成 绩 , 几乎 将 之 前 最 好 的 比赛 结果 错误 率 降 低 一 半 门 。 GPU 的 使用 、ReLU 
方法 及 一 种 新 的 规整 化 技术 一 一 Dropout， 以 及 数据 增强 技术 造就 了 该 方案 的 成 功 ， 为 计算 机 视 
觉 领域 带 来 巨大 变革 。 目 前 几乎 所 有 的 识别 和 检测 问题 都 将 ConvNet 作为 主流 处 理 方法 ， 某 些 
任务 达到 甚至 超过 了 人 类 的 能 力 四 I。 基于 ConvNet 的 视觉 系统 的 突出 性 能 引 无 数 互联 网 和 
IT 公司 竟 折 腰 ， 包 括 Google, Facebook, Microsoft, IBM, Yahoo!、Twitter 和 Adobe， 以 及 国 
内 的 BAT、 迅 速 增长 的 创业 公司 纷纷 对 该 技术 发 起 研究 ， 开 发 工程 并 部 署 基于 ConvNet 的 图 像 
理解 产品 和 服务 。 
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读 史 使 人 明智 ， 通 过 历史 可 以 找到 前 人 的 内 交点 ， 指 导 后 人 少 踩 坑 。 


深度 学 习 也 有 坑 。 深 度 学 习 看 似 万 能 ， 实 则 有 很 多 调 参 技巧 在 里 面 ， 掌 握 得 当 可 以 快速 获 
得 模型 ， 和 否则 可 能 费力 不 讨好 。 


O 模型 参数 远大 于 数据 量 时 ， 相 当 于 求解 一 个 欠 定 方程 ， 存 在 多 解 的 可 能 性 大 ， 容 易 产生 
过 拟 合 问题 。 


O 模型 参数 远 小 于 数据 量 时 ， 相 当 于 求解 超 定 方程 ， 可 能 无 解 ， 或 者 有 解 但 准确 率 很 低 ， 
这 属于 欠 拟 合 问题 。 


O 模型 参数 与 数据 量 匹配 时 ， 相 当 于 求解 恰 定 方程 ， 既 能 避免 过 拟 合 ， 又 能 兼顾 准确 率 ， 
但 模型 参数 量 和 数据 量 怎样 才能 做 到 匹配 ， 是 一 个 工程 问题 。 


所 以 ， 如 果 你 选择 用 某 个 模型 处 理 数 据 ， 那 么 应 该 考虑 这 个 因素 ， 越 大 的 模型 越 难 训练 ， 
因为 需要 与 之 匹配 的 数据 量 、 一 系列 避免 过 拟 合 的 方法 才能 训练 得 到 一 个 较为 理想 的 模型 。 幸 
运 的 是 ， 我 们 可 以 将 大 模型 首先 在 较 大 的 数据 集 (如 ImageNet) 上 预 训练 ， 得 到 模型 ， 再 对 特 
定数 据 集 (如 入 脸 数据 ) 进行 精 调 fine-tuning)， 即 可 得 到 较为 理想 的 结果 。 
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2.7 练习 题 


1. 复习 高 等 数学 求 导 链 式 法 则 。 
2. 复习 线性 代数 算 阵 乘法 。 
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深度 学 习 是 一 个 发 展 迅 速 的 领域 ， 除 了 众多 学 术 界 专家 在 理论 方面 的 贡献 之 外 ， 工 业界 的 
贡献 也 不 可 忽视 。 后 者 将 深度 学 习 理 论 迅速 转 化 为 代码 ， 应 用 到 实际 系统 中 ， 进 一 步 结合 业 务 
优化 改进 ， 形 成 一 股 合 力 ， 推 动 深度 学 习 不 断 进步 。 

今天 介绍 当前 流行 的 几 大 深度 学 习 工 具 ， 读 者 可 以 从 中 了 解 到 每 个 工具 的 设计 思路 、 优 点 
和 适用 场景 。 


3.1 Caffe 
Caffe (Convolutional Architecture for Fast Feature Embedding) 是 由 伯克利 视觉 和 学 习 中 心 
(Berkeley Vision and Learning Center. BVLC) 开发 的 基于 C++/CUDA/Python 实现 的 卷 积 神经 网 


络 框架 ， 提 供 了 面向 命令 行 、Matlab 和 Python 的 绑 定 接口 ， 项 目 主 页 见 参考 资料 [1]。Caffe 前 
身 为 DeCAFP), (E3135) Jg AAT 


Caffe 


图 3-1 “Caffe 标 志 


Caffe 标志 如 图 3-1 所 示 。 


从 Caffe 的 全 称 可 以 获得 如 下 信息 : 
2 它 实 现 了 前 馈 卷 积 神经 网 Asl CNN} 4 Fh asi i (RNN)。 
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O 它 速 度 快 ， 因 为 利用 了 MKL、OpenBLAS、cuBLAS 等 计算 库 ， 支 持 GPU 加 速 。 
O 它 适 合 做 特征 提取 ， 实 际 上 适合 做 三 维 图 像 数 据 的 特征 提取 。 

除 此 之 外 ，Caffe 还 具有 如 下 特性 。 

J Caffe 完全 开源 ， 遵 循 BSD-2 协议 。 


2 Caffe 提供 了 一 整套 工具 集 ， 可 用 于 模型 训练 、 预 测 、 微 调 、 发 布 、 数 据 预 处 理 ， 以 及 
良好 的 自动 测试 。 





> Caffe 带 有 一 系列 参考 模型 和 快速 上 手 例 程 。 


う Caffe 在 国内 外 有 比较 活跃 的 社区 ， 有 很 多 衍生 项 目 ， 如 Caffe for Windows. Caffe with 
OpenCL、NVIDIA DIGITS2、R-CNN 等 。 


O Caffe 代码 组 织 良好 ， 可 读 性 强 ， 通 过 掌握 Caffe 代码 可 以 很 容易 学 习 其 他 框架 。 
以 上 因素 使 Caffe 成 为 深度 学 习 初 学 者 入 坑 的 首选 。 本 书 将 以 Caffe 作为 入 口 带领 读者 步 入 
深度 学 习 的 大 门 。 


3.2 Torch & OverFeat 


TorchD 是 一 个 出 现 较 早 的 支持 大 部 分 机 器 学 习 算 法 的 科学 计算 框架 , 从 2000 年 第 一 个 版 本 
Pini 目前 已 经 发 布 了 4 个 版 本 (Torch 1, Torch 3. Torch 5. Torch 7). Torch 使 用 轻 量 脚本 语 
言 Lua 及 其 C/CUDA 扩展 模块 实现 , 底层 数值 计算 通过 高 效 的 OpenMP/SSE/CUDA 加 速 , 同时 
具备 灵活 性 和 速度 优势 。 得 益 于 Lua 的 轻 量 接口 ，Torch 可 以 很 容易 接 入 第 三 方 软件 。 


Torch 标志 如 图 3-2 所 示 。 


torch 


图 3-2 Torch 标 志 


Torch 为 机 器 学 习 提 供 了 类 似 于 Matlab 的 环境 ， 目 前 纽约 大 学 CNYU). Facebook AI 实验 
室 和 Google DeepMind Torch 均 使 用 该 框架 做 深度 学 习 研 究 。Torch 不 仅 支 持 CPU/GPU 上 运行 ， 
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FL UHRA SUH iOS. Android, FPGA. 








Torch 完全 开源 ， 遵 循 BSD 协议 。 目 前 Torch 7 itr i 8 个 内 置 包 : 














Q torch 一 一 Torch 7 的 主 包 , 提供 Tensors 基本 数据 类 型 和 操作 、 人 简单 的 序列 化 接口 和 其 他 
基本 功能 。 














O lab & plot 一 一 提供 标准 的 类 似 于 Matlab 的 函数 ， 用 于 创建 、 变 换 、 打 印 Tensors。 
O qt 一 一 Qt 和 Lua 的 完全 绑 定 ， 实 现 Torch 7 Tensors 和 QImages 之 间 的 透明 转换 ， 美 观 的 


图 形 界面 非常 适合 快速 开发 交互 式 演示 程序 。 

















O nn 一 一 提供 一 组 标准 神经 网 络 模块 ， 以 及 一 组 容器 模块 ， 可 用 于 定义 任意 有 问 〈 无 环 或 
有 环 ) 图 。 显 式 描述 图 结构 ， 使 用 可 插入 模块 ， 避 免 了 复杂 的 图 解析 器 ， 或 者 其 他 中 间 
件 编译 器 。 下 面 的 例子 用 Torch.nn 实现 了 MLP: 


// mlp test.lua 





require 'nn' 

mlp = nn.Sequential () 
mlp:add(nn.Linear(100, 1000)) 
mlp:add(nn.Tanh () ) 
mlp:add(nn.Linear(1000, 10) 
mip:add(nn.SoftMax()) 


print (mlp) 


QO image 一 一 图 像 处 理 包 ， 提 供 了 所 有 标准 图 像 处 理 函 数 〈 如 载 入 /保存 图 像 、 缩 放 /旋转 、 
色彩 空间 变换 、 卷 积 、 高 斯 核 等 )。 





O optim 一 一 提供 最 陡 下 降 法 、 共 辆 梯度 法 和 有 限 内 存 下 BFGS 等 优化 算法 包 。 
D unsup 一 一 包括 儿 个 非 监 督学 习 算 法 ， 如 K-means、 稀 玻 编码 、 自 动 编码 器 。 


2 third-party 一 一 在 上 述 包 的 基础 上 进一步 封装 不 断 增 加 的 便捷 软件 包 。 














OverFeat 由 是 一 个 在 ImageNet 数据 集中 使 用 Torch 7 训练 的 特征 提取 器 ， 实 现 了 图 像 识别 、 
定位 和 检测 三 位 一 体 的 集成 系统 ， 取 得 了 ILSVRC 2013 定位 任务 冠军 ， 同 时 在 分 类 和 检测 任务 
中 也 取得 了 不 错 的 成 绩 。 
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3.3 MxNet 


MxNet!*! 是 一 个 面向 效率 和 灵活 性 设计 的 深度 学 习 框 架 ， 了 吸收 了 多 种 不 同 框架 
(Minerva/Torch 7/Theano) 的 优点 ,加 入 了 更 多 新 的 功能 , 如 更 加 方便 的 多 卡 和 多 机 分 布 式 运 行 ， 


目前 MxNet LE cxxnet 快 40%， 而 且 GPU 显存 使 用 少 了 一 半 。 


[Fal 








MxNet 标志 如 图 3-3 所 示 。 


dmlc __ 


" 








图 3-3 MxNet 酸 志 














MxNet 提供 了 两 种 编程 接口 : 

















中 AN 维 数 组 (Cndarray) 接口 ， 类 似 于 Matlab 或 Python 中 的 numpy.ndarray 或 torch.tensor。 
它 独 有 的 优势 在 于 通过 背后 的 engine 可 以 在 性 能 和 内 存 使 用 上 优 于 其 他 框架 ; 











O 符号 (symbolic) 接口 ， 可 以 快速 构建 一 个 神经 网 络 ， 实 现 自动 求 导 功 能 。 





目前 MxNet 还 在 快速 发 展 中 ， 以 后 目标 是 更 多 的 语言 绑 定 (目前 支持 比较 好 的 是 Python, 
马上 会 有 Julia 和 R)、 更 好 的 文档 和 更 多 的 应 用 【语言 建 模 、 语 音 、 机 器 翻译 、 视 频 ) 发 展 。 








3.4 TensorFlow 


Google 于 2011 年 推出 了 人 工 深度 学 习 系 统一 DistBelief%1。 通 过 DistBelief, Google 能 
够 扫描 数据 中 心 数 以 千 计 的 核心 , 并 建立 更 大 的 神经 网 络 。 这 个 系统 将 Google 应 用 中 的 语音 识 
别 率 提高 了 25%， 以 及 在 Google Photos 中 建立 了 图 片 搜 索 ， 并 了 驱动 了 Google 的 图 片 字 幕 匹配 
实验 。DistBelief 还 存在 不 少 不 足 和 限制 。 它 很 难 被 设置 ， 和 Google 内 部 的 基础 设施 联系 也 过 











针对 以 上 问题 ，Google 在 2015 Google Research Blog 宣布 推出 新 一 代 人 工 智能 学 习 系统 一 一 
TensorFlow"!, TensorFlow 标志 如 图 3-4 所 示 。 
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TensorFlow 


图 3-4 TensorFlow 标 志 





TensorFlow 是 一 个 异 构 分 布 式 系统 上 的 大 规模 机 器 学 习 框架 ,移植 性 好 (小 到 移动 设备 如 
手机 ， 大 到 大 规模 集群 ， 都 能 支持 )， 支 持 多 种 深度 学 习 模 型 。 根 据 Google 的 说 法 ，TensorFlow 
是 综合 的 、 灵 活 的 、 可 移植 的 、 易 用 的 ， 更 为 关键 的 是 ， 它 是 开源 的 。 与 此 同时 ，TensorFlow 
的 速度 相 比 前 代 的 DistBelief 有 了 不 小 的 提升 ， 在 一 些 跑 分 测试 中 ，TensorFlow 的 得 分 是 第 一 
代 系 统 的 两 倍 。 尽 管 如 此 ， 但 从 3.6 节 的 对 比 结果 来 看 ，TensorFlow 的 效率 仍然 比 不 过 其 他 大 
部 分 开源 框架 , 不过, 随 着 TensorFlow 源码 逐步 开放 , 对 新 硬件 、 新 设备 、 新 的 加 速 库 如 cuDNN 
的 支持 力度 不 断 提升 ， 其 成 为 目前 极 具 潜力 的 深度 学 习 框 架 ， 读 者 可 以 在 掌握 Caffe 后 继续 深 
入 研究 TensorFlow. 


TensorFlow 计算 流 如 图 3-5 所 示 。 








ニーー 








图 3-5 TensorFlow 计 算 流 
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3.5 Theano 





Theano J dj LISA 开发 的 基于 Python 的 深度 学 习 框 架 ， 可 以 定义 数学 表达 式 并 高 效 地 优 
化 、 求 值 。 


Theano 标志 如 图 3-6 所 示 。 


theano 


图 3-6 ”Theano 标 志 





Theano 支持 机 器 学 习 中 的 逻辑 回归 (Logistic Regression, LR), € (MultiLayer 
Perceptron，MLP )、 深 度 卷 积 网 络 等 监督 学 习 方 法 ， 以 及 自 编码 器 (Auto Encoder, AE), PER 
自 编码 器 、 限 制 玻 尔 兹 曼 机 (Restricted Bolzman Machine，RBM)、 深 度 置 信和 网 络 (Deep Belief 
Network，DBN) 等 非 监督 / 半 监 督学 习 方 法 ， 在 国外 教育 领域 非常 受 欢 迎 ， 一 些 机 器 学 习 课 程 
都 是 采用 Theano 教学 的 。 但 是 Theano 有 个 致命 短 板 ， 就 是 计算 速度 慢 ， 虽 然 有 GPU 加速 , 但 
仍然 不 如 其 他 框架 高 效 ， 所 以 只 适合 研究 人 员 使 用 ， 不 适合 在 线 上 环境 部 署 。 


3.6 CNTK 


CNTK (Computational Network Toolkit) 巴 是 微软 推出 的 开源 深度 学 习 框 架 ， 通 过 一 系列 计 
算 步 又 构成 有 向 图 来 表达 网 络 。 


CNTK 标志 如 图 3-7 所 示 。 


| Wf Microsoft 


CNT 


图 3-7 CNTK 标 志 
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CNTK 的 优点 是 高 性 能 、 高 灵活 性 、 可 扩展 性 好 。CNTK 支持 CNN、 LSTM、RNN 等 流行 

络 结构 ， 支 持 分 布 式 训练 。 在 纯 CPU、 单 GPU、 多 GPU、 多 机 多 GPU 硬件 平台 下 都 具有 较 
高 的 性 能 。 

从 图 3-8 中 看 到 ，CNTK 支持 双 机 8 GPU 并 行 处 理 ， 而 其 他 框架 只 支持 单 GPU (Theano) 
或 单机 多 GPU (TensorFlow、Torch 7、 Caffe )。 从 单 GPU 对 比 性 能 来 看 ，Theano 是 性 能 最 低 的 ， 
而 CNTK、Torch 7. Caffe 相差 不 大 。 单 机 4 GPU 的 性 能 对 比 结果 显示 了 CNTK 具有 极 高 的 效 
率 。GitHub 上 也 有 对 常见 的 深度 学 习 框架 卷 积 计算 性 能 的 对 比 情况 09。 








| 
Speed Comparison (Frames/Second, The Higher the Better) 
80000 
70000 
We repart 8 GPUs (2 machines) for CNTK as itis the oniy public 
60000 toolkit that cen scale beyond a single machine. CNTK on Azure 
GPU lab can scale beyond 8 GPUs across multiple machines with 
50000 superior distributed system performance. 
40000 
30000 
20000 I 
Theano only supports 1 GPU 
i l E a É 
: € E 
CNTK Theano Tensor tow Torch 7 Caffe 
WiCPU wix4GPUs m2x4GPUs|[BE GPUs) 








图 3-8 ”CNTK 提 供 的 性 能 数据 


虽然 CNTK 有 上 述 优 点 ， 但 同时 要 看 到 微软 对 自家 Windows 支持 不 遗 余力 ， 导 臻 CNTK 
对 Windows 平台 支持 最 好 ， 不 推荐 作为 深度 学 习 初 学 者 入 门 工 具 ， 而 是 选择 拥有 更 大 社区 的 
Caffe. 


除了 上 述 深度 学 习 工 具 ， 还 有 一 些 特殊 的 工具 作为 选择 ， 具 体 情 况 可 参见 附录 


掌握 了 今天 的 内 容 并 深入 研究 、 仔 细 评 测 、 对 比 不 同 框架 ， 理 解 内 在 的 设计 理念 ， 深 入 对 
比 各 自 的 优势 和 不 足 ， 你 会 成 长 为 优秀 的 深度 学 习 平 台 工 程 师 。 


3.7 aM 
1. 到 上 述 工具 的 主页 查看 最 新 动态 。 


2. 思考 : 深度 学 习 工具 为 什么 总 是 d EUR T 国外 ? 
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3. 如 果 将 来 你 想 写 一 个 深度 学 习 框 架 ， 需 要 考虑 哪些 因素 ? 


3.8 参考 資料 


[1] BVLC Caffe 项 目 主页 http://caffe.berkeleyvision.org/ 


[2] DeCAF: A Deep Convolutional Activation Feature for Generic Visual Recognition, 
http://arxiv.org/abs/1310.1531 


[3] Torch 主页 http://torch.ch/ 


[4] OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks, 
http://arxiv.org/abs/1312.6229v4 


[5] MxNet, https://github.com/dmlc/mxnet 

[6] Large Scale Distributed Deep Networks, NIPS 2012 
[7] TensorFlow, http://tensorflow.org/ 

[8] Theano, http: fiewwideepleathing net/software/theano/ 
[9] CNTK 主页 http://www.cntk.ai/ 


[10] https://github.com/soumith/convnet-benchmarks 
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准备 Caffe 环境 


今天 的 主要 任务 是 准备 Caffe 运行 环境 由 ,确切 地 说 ， 是 准备 本 书 上 篇 、 中 篇 的 Caffe 环境 ， 
假设 读者 手头 (至少) 有 一 台 安 装 了 Linux/Windows/Mac OS 的 笔记 本 电脑 。 考 虑 到 大 部 分 初学 
者 条 件 有 限 ， 为 了 快速 入 门 ， 可 以 先 学 习 在 CPU 上 运行 Caffe 并 阅读 其 中 的 C++ 代码 ， 而 不 是 
将 大 量 精力 浪费 在 重 装 操作 系统 、 更 新 GPU Skah. Dg CUDA 代码 上 。 对 于 希望 使 用 
GPU 加 速 计算 的 读者 ， 可 以 参考 第 15 天 内 容 。 


4.1 Mac OS 环境 准备 


笔者 写作 时 使 用 Mac OS 作为 代码 编辑 和 阅读 环境 ， 笔 记 本 电脑 配置 如 图 4-1 所 示 。 





OSXEICapitan 


| ME 10.0712 


MacBoo« Air (13-inch, Early 20151 

SEH "6 GHzinte Core — 7 

| 内 存 8 GB 1600 MHz DDR3 

| SWB Macintosh HU | 

BINAE telHD Grepnics 0000 1530 MB 

mns š 
| 
| 


KERS. MEE 





MRO 1983.2915 Acpie inc, ARIE, SENSAS 
lac = = 


图 4-1 CPU 模式 Caffe 运 行 环境 





Mac OS 的 命令 行 和 Linux 发 行 版 几乎 一 样 。CPU 模式 的 Caffe 在 Mac 上 的 编译 过 程 如 下 。 


(1) 安装 homebrew 包 管 理工 共 、 作 用 相当 T ua, at apt-get. 
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$ ruby -e "$(curl -fsSLN 


https://raw.githubusercontent.com/Homebrew/install/master/install)" 


(2) 等 待 安装 成 功 ， 然 后 利用 该 工具 安装 Caffe 依赖 包 


brew install -vd snappy leveldb gflags glogs zip lmdb 
brew tap homebrew/science 


brew install hdf5 opencv 


nny X 


brew install protobuf boost wget 


(3) FA Caffe 源码 : 
$ git clone https://github.com/bvlc/caffe.git 
cd caffe/ 


4 


$ mv Makefile.config.example Makefile.config 


(4) 修改 Makefile.config, 打 井 CPU_ONLY 选项 ， 保 存 。 


+ 仅 CPU 模式 开关 ， 打 开 该 选项 (去掉 “#”) 表示 Caffe 编译 时 仅 支 持 CPU， 不 支持 GPU 
CPU ONLY := 1 


(5) 执行 make 进行 编译 ; 


# -j 选项 表示 使 用 多 线程 编译 ， 利 用 所 有 可 用 的 CPU， 加 快 编译 速度 
# 也 可 指定 数字 ， 如 -j8 表示 开启 8 个 线程 编译 
$ make -j 


等 竺 编译 成 功 。 如 果 编 译 报错 ， 请 结合 45 节 进 行 排查 。 
4.2 Ubuntu 环境 准备 


在 Ubuntu 14.04 系统 中 ，Caffe 的 所 有 依赖 包 都 可 以 使 用 apt-get 大 法 搞定 。 


# 在 Ubuntu 下 如 果 没 有 使 用 root 账号 ， 则 每 个 命令 前 需要 加 sudo 
$ sudo apt-get install git 


$ sudo apt-get install libprotobuf-dev libleveldb-dev libsnappy-dev libopencv-dev 
libhdf5-serial-dev protobuf-compiler 


$ sudo apt-get install --no-install-recommends libboost-all-dev 

$ sudo apt-get install libatlas-base-dev 

$ sudo apt-get install python-dev 

$ sudo apt-get install libgflags-dev libgoogle-glog-dev liblmdb-dev 
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(1) Fax Caffe Yth: 
git clone https://github.com/bvlc/caffe.git 


cd catfe/ 


Xn X XY 


mv Makefile.config.example Makefile.config 


(2) 同 4.1 节 ， 修 改 Makefile.config, 打 井 CPU_ ONLY 选项 ， 保 存 。 


Xn 


make -j 


等 竺 编译 成 功 。 如 果 编 译 报错 ， 请 结合 4.5 节 进 行 排查 。 


4.3 RHEL/Fedora/CentOS 环境 准备 





通用 依赖 可 以 这 样 安装 : 


$ sudo yum install protobuf-devel leveldb-devel snappy-devel opencv-devel boost-devel 
hdf5-devel atlas-devel 


剩 下 的 依赖 ， 对 于 最 新 系统 可 以 这 样 安装 : 


sudo yum install gflags-devel glog-devel lmdb-devel 


an 


C1) 下載 Caffe VRI: 
git clone https://github.com/bvlc/caffe.git 
cd caffe/ 


A xr WM 


mv Makefile.config.example Makefile.config 


(2) 同 4.1 节 ， 修 改 Makefile.config, 打 井 CPU_ ONLY 选项， 保存 。 


4p 


make -j 


等 待 编译 成 功 。 如 果 编 译 报错 ， 请 结合 4.5 节 进 行 排 查 。 
4.4 Windows 环境 准备 


考虑 到 很 多 读者 都 使 用 Windows 平台 ， 所 以 增加 了 该 节 内 容 。Microsoft 为 Windows 用 户 
提供 了 一 套 Caffe for Windows 4) 3c"! , 


O 操作 系统 : 推荐 Windows Server 2012 R2 64bit 或 Windows 7 SP1 64bit 以 上 





O ASE Cie). " á ? B] 
> 编译 环境 ODE Visual Studio 2013 Ultimate m 
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由 于 目前 只 需 编译 CPU 模式 Caffe， 故 暂时 不 需要 安装 CUDA Toolkit 7.5" fl cuDNN'!, 
(1) 安装 Visual Studio 2013. 将 Microsoft/caffe 代码 下 载 到 本 地 磁盘 ,本文 路 径 为 C:\Users 


AdministratorDesktop\caffe-master。 


(2) 进 入 CAUsers Administrator Desktop caffe-master windows 目录 ,将 文件 CommonSettings. 


props.example 重 命名 为 CommonSettings.props， 修 改 其 内 容 如 下 : 








<?xml version-"1.0" encoding-"utf-8"?» 


«Project ToolsVersion="4.0" xmlns-"http://schemas.microsoft.com/developer/msbuild/ 
2003"><ImportGroup Label-"PropertySheets" /> 


<PropertyGroup Label-"UserMacros"»«BuildDir»$ (SolutionDir).. M Build«/BuildDir» 


<!--NOTE: CpuOnlyBuild and  UseCuDNN flags can't be set at the same time.--> 
<CpuOnlyBuild>true</CpuOnlyBuild> 


<UseCuDNN>false</UseCuDNN> 


«CudaVersion»7.5«/CudaVersion» 


EZ (后 面 的 内 容 都 不 用 改 ， 此 处 略 去 ) 


(3) 修改 完成 后 ， 保 存 该 文件 。 双 击 同一 日 录 下 的 Caffe.sIn 文件 ， 打 开 Windows Caffe T. 


(4) 单 击 菜 单 “ 生 成 ”一 “重新 生成 解决 方案 ”"， 开 始 漫长 的 编译 过 程 。 











在 预 编译 阶段 ，Visual Studio 2013 会 通过 NuGet 工具 自动 获取 预 编译 的 Caffe 依赖 包 ， 放 
置 于 C:\Users\Administrator\Desktop\NugetPackages 下 。 打 开 该 目录 ， 查 看 下 载 好 的 依赖 包 ， 如 
4-2 所 示 。 





p 














| boost.1.58.0.0 206/32? Vj FT | 


| i TE i | 
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图 4-2 ”查看 依赖 包 
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ee i [ee [vines | em: 
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图 4-3 查看 当前 目录 属性 





占用 空间 大 约 1GB， 同 样 的 依赖 包 在 Linux 下 只 有 不 到 200MB。 


编译 成 功 后 ， 生 成 的 可 执行 文件 和 库 位 于 C:\Users\Administrator\Desktop\caffe-master\Build\ 
x64\Release 下 ， 如 图 4-4 所 示 。 


个 | ue caffe-master + Build » x64 » Release 








eh 

hdf5.pdb 

B hd cpp.pdb 
hd5 f90cstub.pdb 
B hdfS h.pdb 

L B hdi5 Hi cpp.pdb 
P B. hdfS hl foocstub_pdb 
hdf5 tools.pdb 
libcaffe.lib 
libgleg.pdb 

| B Imdb.pdb 
test all pdb 


E caffe.exe 





kapes 









Source Browvé 


Source Browner 


Nolume (Cj e compute image mean.exe 
ke (03 = convert_imageset.exe 

le | extract_features.exe 

EY test allexe 

1 caffe.managed.dll 

m, cublas64_75,dll 

ææ cudart32 75.dll 


图 4-4 查看 生成 的 可 执行 文件 和 库 
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看 到 了 生成 的 可 执行 程序 ， 其 中 caffe.exe 我 们 后 面 会 经 常用 到 。 笔 者 提供 一 份 编译 好 的 


Windows Caffe 工程 四， 读者 可 下 载 到 本 地 直接 运行 。 


4.5 常见 问题 


一 些 早期 的 Linux 发 行 版 (如 Ubuntu 12.04、 CentOS 6.5 等 ) 可 能 找 不 到 glog. gflags. Imdb 


三 个 依赖 包 ， 此 时 需要 以 源码 编译 方式 安装 ， 步 骤 如 下 : 


の の nt HY の の の XD の Ft 40 の Xn の の 年 


glog 
wget https://google-glog.googlecode.com/files/glog-0.3.3.tar.gz 
tar zxvf glog-0.3.3.tar.gz 

ed glog-0.3.3 

./configure 

make && make install 

gflags 

wget https://github.com/schuhschuh/gflags/archive/master.zip 
unzip master.zip 

cd gflags-master 

mkdir build && cd build 

export CXXFLAGS-"-fPIC" &&cmake ..&& make VERBOSE-1 

make && make install 

lmdb 

git clone https://github.com/LMDB/lmdb 

cd lmdb/libraries/liblmdb 


make && make install 


在 比较 旧 的 系统 上 准备 Caffe 环境 稍微 复杂 些 。 推 荐 初学 者 在 阅读 上 篇 、 中 篇 时 使 用 


Ubuntu/Windows/Mac OS， 不 需要 配备 GPU 和 CUDA 环境 ， 避 免 第 一 步 就 陷入 编译 困境 。 随 着 
对 Caffe 了 解 的 深入 ， 以 及 心智 的 成 熟 ， 读 者 自然 会 从 容 处 理 这 些 问题 。 


46 AY 


1. 试 着 用 Linux 的 包 管 理 器 yum 或 apt-get 安装 python-dev. python-pip. numpy. 
2. 用 yum 或 apt-get 安装 的 软件 包 都 在 什么 位 置 ? 
3. 如 果 有 两 台 同 样 系统 的 机 器 ， 其 一 台 安 装 了 某 依赖 包 ， 男 一 台 没有 安装 ， 能 否 将 已 安装 
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依赖 包 的 机 器 环境 复制 到 第 另 一 台 机 器 上 ? 
47 参考 資料 
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第 つ 天 
Caffe 依赖 包 解析 


完成 了 基础 环境 准备 工作 ， 可 能 读者 还 有 疑问 ， 那 些 命令 到 底 都 安装 了 些 什么 包 ? 到 底 有 
什么 用 ? 今天 将 揭 开 谜底 。 建议 有 C++ 基础 的 读者 深入 阅读 ,了 解 一 些 开源 库 以 节省 开发 时 间 。 
如 果 对 依赖 包 不 感 兴 趣 ， 可 直接 跳 过 这 部 分 内 容 ， 遇 到 问题 时 再 回 过 头 来 阅读 亦 可 。 


为 了 方便 读者 实验 ， 今 天 用 到 的 所 有 源码 都 可 以 从 笔者 的 百度 云 盘 凹 获得 。 
5.1 ProtoBuffer 


ProtoBuffer 是 由 Google 开发 的 一 种 可 以 实现 内 存 与 非 易 失 存储 介质 《如 硬盘 文件 ) 交换 的 
协议 接口 。Caffe 源码 中 大 量 使 用 ProtoBuffer 作为 权 值 和 模型 参数 的 载体 。 一 般 开 发 者 对 参数 
管理 各 有 好 恶 ， 有 人 喜欢 TXT 的 易于 修改 ， 有 人 喜欢 BIN 的 读 写 高 效 ， 也 有 人 喜欢 图 形 化 配 
置 的 直观 形象 。 不 一 致 的 参数 管理 带 来 很 多 问题 ， 例 如 ， 一 个 项 目 组 内 不 同 成 员 必 须 约 定 一 套 
统一 的 参数 方案 ， 或 者 称 为 通信 协议 ， 才 便于 模块 集成 。ProtoBuffer 工具 完美 地 解决 了 这 个 问 
题 ， 用 户 只 需要 建立 统一 的 参数 描述 文件 (proto)， 然 后 利用 protoc 编译 就 能 让 协议 细节 等 关 
键 部 分 代 但 自动 生成 ， 节 省 了 大 量 的 开发 、 调 试 时 间 。 使 用 ProtoBuffer 还 可 以 跨 语 言 
(C++/Java/Python) 传递 相同 的 数据 结构 ， 让 团队 协作 更 有 效率 。 


注意 :有 时 旧版 本 的 ProtoBuffer 生成 的 文件 在 新 版 本 中 使 用 会 有 各 种 不 易 排 查 的 错误 信息 ， 
所 以 推荐 在 需要 运行 Caffe 的 环境 下 都 使 用 同一 版 本 ProtoBuffer. 
从 笔者 的 百度 云 盘 由 下 载 安装 文件 后 解压 ; 


$ tar zxvf protobuf-2.5.0.tar.gz 
$ cd protobuf-2.5.0 


$ ./configure --prefix-/home/yourname/local install/ 
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请 注意 ， 我 们 并 没有 将 Protobuf 安装 到 系统 默认 目录 /usr/ 或 /ust/local/ 下 ， 而 是 安装 到 本 地 
H 3&/home/yourname/local install/ 下， 这 样 做 的 好 处 是 便于 迁移 。 在 一 台 机 器 上 安装 好 的 Caffe 
及 其 依赖 ， 能 迅速 迁移 到 另 一 台 机 器 上 而 无 须 重 复 编译 、 安 装 。 后 面 所 有 第 三 方 依赖 软件 包 都 
会 安装 到 这 个 目录 下 。 
$ make 


$ make install 


这 样 就 完成 了 Protobuf 软件 包 的 安装 。 为 了 检验 是 否 安装 成 功 ， 看 一 下 安装 目录 : 


$ ls ~/local install/bin/ 


protoc 


看 到 了 protoc 可 执行 文件 , 说明 安装 成 功 。 为 了 能 在 命令 行 运行 ,我 们 将 该 目录 加 入 PATH 
中 : 


$ export PATH=~/local install/bin/:$PATH 


可 以 将 其 写 入 /home/yourname/.bashre， 以 实现 建立 会 话 时 自动 配置 环境 。 接 下 来 进入 Caffe 
根 目录 ， 修 改 Makefile.config , 在 INCLUDE DIRS 后 面 加 入 ~/local instalyinclude ， 在 
LIBRARY DIRS 后 面 加 入 ~/local_install/lib。 


看 到 这 里 ， 可 能 很 多 读者 都 知道 了 如 何 用 apt 以 及 源码 编译 方式 安装 ProtoBuffer， 但 仍然 
不 太 理解 ProtoBuffer 的 具体 用 法 ， 下 面 给 出 一 个 简单 的 例子 来 帮助 理解 。 


在 Caffe 源码 框架 中 找到 models/bvle reference caffenet/solver.prototxt 文件 , 用 vi 打开, 会 
看 到 如 下 文本 内 容 : 
net: "modeis/bvlc reference caffenet/train val.prototxt" 
test iter: 1000 
test interval: 1000 
base lr: 0.01 
lr policy: "step" 
gamma: 0.1 
stepsize: 100000 
display: 20 
max iter: 450000 
momentum: 0.9 
weight decay: 0.0005 
snapshot: 10000 
snapshot prefix: "models/bvlc reference caffenet/caffenet train" 


solver mode: GPU 
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这 里 面 记录 了 一 些 模型 训练 所 需 的 超 参 数 (Hyper-Parameter), 用 Caffe 训练 时 会 首先 读 取 
该 文件 ， 获 得 其 中 特定 字段 的 数值 ， 并 据 此 设置 内 存 中 模型 训练 时 的 超 参 数 变量 值 ， 从 文件 读 
取 到 内 存 的 过 程 就 是 由 ProtoBuffer 工具 协助 完成 的 。 下 面 我 们 写 一 个 简单 的 测试 程序 。 


从 编译 好 的 Caffe 目录 下 找到 build Hoi; 并 查看 生成 的 ProtoBuffer 相关 API 文件 : 


$ 1s build/src/caffe/proto/ 
caffe.pb.cc caffe.pb.d caffe.pb.h caffe.pb.o caffe.pb.o.warnings.txt 


其 中 ，caffe.pb.h 和 caffe.pb.cc 就 是 用 于 解析 Caffe 参数 配置 文件 、 将 模型 权 值 序列 化 / 反 序 
列 化 到 磁盘 的 协议 接口 。 我 们 编写 测试 程序 如 下 : 


#include "caffe.pb.h" 
#include <google/protobuf/io/coded stream.h> 
"include <google/protobuf/io/zero copy stream impl.h» 


#include «google/protobuf/text format.h» 
#include <iostream> 


using namespace std; 

using google: :protobuf::io::FileInputStream; 
using google: :protobuf::io::FileOQutputStream; 
using google: :protobuf::io::ZeroCopyInputStream; 
using google: :protobuf::io: :CodedInputStream; 
using google: :protobuf::io::ZeroCopyOutputStream; 
using google: :protobuf::io::CodedOutputStream; 
using google: :protobuf: :Message; 


#include «fcntl.h» 


int main (void) 
{ 
const char * filename = "solver.prototxt"; 
caffe: :SolverParameter solver param; 
int fd = open(filename, O RDONLY); 
if(fd -- -1) 
{ 


cout << "File not found: " << filename ««endl; 
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FileInputStream* input = new FileInputStream(fd); 
bool success - google::protobuf::TextFormat::Parse(input, &solver param); 


delete input; 


close (fd); 
cout<<"Solver Mode = "««solver param.solver_mode()<<endl; 
cout««"Device id = "««solver param.device id()<<endl; 
cout<<"Solver Type = "<<solver_param.solver_type()<<endl; 
cout««"Random Seed = "<<solver param.random seed()««endl; 

// cout<<"Train net param = "««solver param.train net param()««endl; 
cout<<"Max iter = "««solver param.max iter()««endl; 
cout««"Test interval = "««solver param.test_interval()<<endl; 


cout««"End"««endl; 


将 该 程序 保存 为 get param from proto.cpp 文件 , 用 g++ 编译 该 文件 ， 命 今 为 : 


で 


$ g++ -o test get param from proto.cpp ./build/src/caffe/proto/caffe.pb.cc \ 
-I./build/src/caffe/proto/ -I-/locai install/include -L-/local install/lib -lprotobuf 


运行 时 ， 将 solver.prototxt 复制 一 份 ， 放 在 与 test 同一 个 目录 下 ， 和 运行 


$ ./test 

Solver Mode - 1 
Device id = 0 

Solver Type = 0 
Random Seed - -1 

Max iter = 450000 
Test interval - 1000 


End 


从 上 面 程序 可 以 看 出 ， 关 键 代码 只 有 三 行 ， 就 能 将 solverprototxt 中 的 配置 参数 按照 
caffe.proto ribns dete solver param 中 ， 实 现 简单 、 高 效 的 参数 同步 。 在 简单 
的 背后 ， 是 ProtoBuffer 自动 完成 了 复杂 的 接口 实现 。 读 者 可 以 阅读 caffe.proto 中 的 
SolverParameter 协议 、caffe.pb.h 和 caffe.pbcc， 了 解 具 体 细节 。 如 果 采 用 自己 动手 设计 协议 方 
式 来 加 载 参 数 ， 很 可 能 会 随 着 版 本 的 变化 ， 维 护 越 来 越 艰 难 。 利 用 该 工具 ， 使 得 Caffe HAR 
活性 好 、 可 扩展 性 强 的 特点 。 


ww ai bbt. com DODOODDOD 


38 ”深度 学 习 : 21 天 实战 Caffe 


5.2 Boost 


学 过 C++ 的 同学 应 该 都 知道 Boost 库 ， 它 是 一 个 功能 强大 、 构 造 精巧 、 跨 平台 、 开 源 且 免 
费 的 库 ， 被 称 为 “C++; 人 标准 库 ” 使用 ae 和 内 容 涵盖 字符 串 处 理 、 正 则 表达 
式 、 容 器 〈 不 是 Docker) 和 数据 结构 、 并 发 编程 、 函 数 式 编程 、 泛 型 编程 、 设 计 模式 实现 等 许 
多 领域 ， 使 得 C++ 开发 更 加 有 灵活、 高效 。 更 多 细节 请 参考 http://www.boost.org/. 





在 Caffe 中 主要 使 用 了 Boost 中 的 智能 指针 ， 其 上 自 带 引用 计数 功能 ,可 避免 共享 指针 时 造成 
内 存 泄 漏 或 多 次 释放 。 另 外 ，pycaffe 使用 Boost Python 实现 C/C++ 和 Python 语言 的 连接 ， 方 使 
Python 调用 C/C++ 设计 的 模块 。 


下 载 boost 1 56 0.tarbz2 并 解压 : 
tar jxvf boost 1 56 0.tar.bz2 
cd boost 1 56 0/ 

然后 运行 


./bootstrap.sh --with-libraries-system,thread,python 
./b2 


不 再 是 典型 的 configure. make. make install 三 部 曲 ， 生 成 的 库 需 要 手动 复制 到 安装 目录 
P: 
cp -r boost/ /home/yourname/local install/include/ 


cp stage/lib/* /home/yourname/local install/lib/ 


5.3  GELAGS 


A gflags-2.1.1.zip 并 安装 : 


unzip gflags-2.1.1.zip 
cd gflags-2.1.1/ 

mkdir build; cd build/ 
cmake .. 


ccmake .. 


在 这 里 ， 会 弹出 CCMAKE 配置 界面 ， 显 示 如 下 : 


BUILD PACKAGING OFF 
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BUILD SHARED LIBS ON 
BUILD TESTING OFF 
BUILD gflags LIB ON 


BUILD gflags nothreads LIB ON 
CMAKE BUILD TYPE Release 
CMAKE INSTALL PREFIX /home/yourname/local install 


BUILD PACKAGING: Enable build of distribution packages using CPack. 

Press [enter] to edit option CMake Version 2.8.11 
Press [c] to configure i 

Press [h] for help Press [q] to quit without generating 


Press [t] to toggle advanced mode (Currently Off) 


上 面 两 个 粗 体 字 位 置 需要 修改 ,其 他 不 变 。 修 改 完成 后 , 先 按 C 键 ,再 按 G E, E Makefile. 


make 





make install 


GFLAGS 在 Caffe 中 主要 起 到 命令 行 参数 解析 的 作用 ， 这 与 ProtoBuffer 功能 类 似 ， 只 是 参 
数 給 入 源 不 同 。GFLAGS 的 使 用 方法 可 参考 Caffe 源码 中 的 tools/caffe.cpp。 





5.4 GLOG 

















GLOG 库 是 Google 开发 的 用 于 记录 应 用 程序 日 志 的 实用 库 , 提供 基于 C++ 标 准 输入 输出 流 
形式 的 接口 ， 记 录 时 可 选择 不 同 的 日 志 级 别 ， 方 便 将 重要 日 志和 普通 日 志 分 开 。 下 载 
glog-0.3.3.tar.gz 并 解压 ， 然 后 编 详 : 














tar zxvf glog-0.3.3.tar.gz 
cd glog-0.3.3/ 
./configure --prefix-/home/yourname/local install/ 


make 


て な X0 xn Xn 4n 


make install 
GLOG 在 Caffe 中 主要 起 到 记录 日 志 的 作用 ,便于 开发 者 查看 Caffe 训练 中 产生 的 中 间 输 出 ， 


并 根据 这 些 信息 决定 如 何 调整 参数 来 控制 收 化 。 从 日 志文 件 我 们 能 非常 方便 地 看 到 程序 运行 的 
流程 ， 便 于 跟踪 源码 、 定 位 问题 。GLOG 的 使 用 方法 可 参考 Caffe 源码 中 的 tools/caffe.cpp。 
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5.5 BLAS 


卷 积 神经 网 络 中 用 到 的 数学 计算 主要 是 矩阵 、 向 量 的 计算 ，Caffe 中 调用 了 BLAS (Basic 
Linear Algebra Subprograms， 基 本 线性 代数 子 程序 ) 中 的 相应 方法 。 最 常用 的 BLAS 实现 有 Intel 
MKL, ATLAS, OpenBLAS 等 , Caffe 可 以 选择 其 中 任 一 种 。 打 开 Makefile.config， 找 到 如 下 几 
行 : 

+ 选择 BLAS 〈 基 本 线性 代数 库 )， 本 文 使 用 OpenBLRAS， 故 修改 为 : open 
# atlas 用 于 ATLAS (默认 值 ) 
# mk1 用 于 MKL 


























* open 用 于 OpenBLAS 
BLAS := open 

















这 里 我 们 选择 开源 且 高 效 的 OpenBLAS 实现 ， 另 外 两 种 作为 练习 。 





(1) 下載 OpenBLAS 并 解压 


tar zxvf OpenBLAS-0.2.14.tar.gz 
cd OpenBLAS-0.2.14/ 


(2) 直接 编译 : 
make -j 

(3) 安装 : 
make PREFIX=/home/yourname/local install install 

OpenBLAS 在 Caffe 中 主要 负责 CPU 端的 数值 计算 (如 和 矩阵 乘法 )。 由 于 调用 量 相当 大 ， 
该 库 的 性 能 直接 影响 Caffe 的 运行 性 能 。 如 果 你 已 经 购买 了 MKL， 则 不 必 再 用 OpenBLAS. 25 
外 ， 在 GPU 端的 数值 计算 则 由 对 应 的 cuBLAS 完成 ， 其 API 接口 与 OpenBLAS 类 似 。 




















下 面 介绍 常用 的 两 个 函数 ， 位 于 Caffe 源码 include/caffe/util/math functions.hpp 中 。 


template «typename Dtype» 

void caffe cpu gemm(const CBLAS TRANSPOSE TransA, 
const CBLAS TRANSPOSE TransB, const int M, const int N, const int K, 
const Dtype alpha, const Dtype* A, const Dtype* B, const Dtype beta, 
Dtype* C); 


gemm IRAE Ah MEF RR BUE TE, 実現 操作 訪 : C = alpha * op(A) * op(B) + beta * C. 
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其 中 ，CBLAS TRANSPOSE 是 一 个 枚 举 常 量 ， 在 /home/yournamey/local install /cblas.h 中 有 


typedef enum CBLAS TRANSPOSE {CblasNoTrans=111, CblasTrans-112, CblasConjTrans-113, 
CblasConjNoTrans-114] CBLAS TRANSPOSE; 


TransA 取 值 可 以 实现 四 种 op: { 原 矩阵 A, PERSEE AT, JEEP: ERE A", JOUER A }。 


M, N, K 为 矩阵 的 维度 信息 。 众 所 周知 ， 两 个 相 乘 的 矩阵 必须 满足 一 个 条 件 : 前 矩阵 的 列 
数 与 后 矩阵 的 行 数 相 等 ,这 里 等 于 K。 最终 相 乘 的 结果 C 维度 为 MxN, 这 样 就 很 容易 得 到 A. B 
的 维度 信息 了 。 


Caffe 用 上 面 的 函数 重新 包装 了 OpenBLAS 的 dgemm、sgemm 函数 ， 简 化 了 参数 设置 ， 减 
轻 了 算法 实现 负担 。 
template «typename Dtype» 
void caffe cpu gemv(const CBLAS TRANSPOSE TransA, const int M, const int N, 


const Dtype alpha, const Dtype* A, const Dtype* x, const Dtype beta, 
Dtype* y); 


gemv Ay Ft AGB Me |r] 3e pe SE, SCHRERIEJJ: y= alpha * op(A) * x + beta * y. 


其 中 , Transa 意 叉 同上 。 HRE op(A) 的 维度 为 M x N， 向 量 x 的 维度 为 N x 1, 向 量 y 的 维 
度 为 M x1。 


其 他 数学 计算 函数 都 相对 简单 ， 读 者 可 以 自行 阅读 ， 本 书 不 再 逐一 细 述 ， 后 面 用 到 时 会 
说 明 。 


5.6 HDF5 


HDF (Hierarchical Data File) 是 美国 国家 高 级 计算 应 用 中 心 (NCSA) 为 了 满足 各 种 领域 研 
究 需 求 而 研制 的 一 种 能 高 效 存储 和 分 发 科学 数据 的 新 型 数据 格式 。 它 可 以 存储 不 同类 型 的 图 像 
和 数码 数据 的 文件 ， 并 且 可 以 在 不 同类 型 的 机 器 上 传输 ， 同 时 还 有 统一 处 理 这 种 文件 格式 的 函 
WE. Caffe 训练 模型 可 以 选择 保存 为 HDFS 格式 或 (默认 的 ) ProtoBuffer 格式 。 


(1) FA hdf5-1.8.9.tar.gz 后 解压 : 


tar zxvf hdf5-1.8.9.tar.gz 
cd hdf5-1.8.9/ 
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(2) BUE: 

./configure --prefix-/home/yourname/local install/ 
(3) 编译 安装 : 


make -j && make install 


HDFS 的 使 用 方法 可 参考 Caffe 源码 中 的 hdfS.hpp 和 hdfS.cpp。 
5.7 OpenCV 


OpenCV 是 世界 上 最 流行 的 开源 计算 机 视觉 库 ， 包 含有 大 量 图 像 处 理 函数 。Caffe 使用 
OpenCV 完成 一 些 图 像 存 取 和 预 处 理 功能 。 


下 载 opencv-3.0.0.zip 并 解压 : 


unzip opencv-3.0.0.zip 
cd opencv-3.0.0/ 

mkdir build; 

cd build/ 

cmake .. 


ccmake .. 

很 多 同学 在 编译 OpenCV 时 很 是 头 大 ， 因 为 配置 选项 较 多 ， 编 译 时 总 是 报 各 种 莫名 其 妙 的 
Bx. IEX Caffe 里 面 用 到 的 OpenCV 模块 非常 有 限 ， 仅 限于 图 片 读 写 、 图 片 缩放 等 CPU 上 的 
模块 ， 完 全 可 以 禁用 无 关 模 块 以 节省 编译 时 间 。 


make && make install 


OpenCV 的 使 用 方法 可 以 参考 Caffe 源码 中 的 io.hpp 和 io ege 
5.8 LMDB 和 LEVELDB 


LMDB (Lightning Memory-Mapped Database Manager) 一 一 闪电 般 的 内 存 映 射 型 数据 库 管 
理 器 , 在 Caffe 中 的 作用 主要 是 提供 数据 管理 ， 将 形形色色 的 原始 数据 (JPEG 图 片 、 二 进 制 数 
据 ) 转 换 为 统一 的 Key-Value 存储 , 使 于 Caffe 的 DataLayer 获取 这 些 数 据 .LEVELDB 库 是 Caffe 
早期 版 本 使 用 的 数据 存储 方式 ， 由 Google 开发 。 它 是 一 种 持续 的 键 值 对 存储 方式 ， 键 和 值 可 以 
为 任意 字 节 数组 。 键 的 存储 顺序 可 由 用 户 定 义 的 比较 函数 决定 。 目 前 大 部 分 例 程 都 已 经 使 用 
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LMDB 代替 了 LEVELDB， 但 是 为 了 与 以 前 的 版 本 兼容 ， 仍 然 将 这 个 依赖 库 编 译 到 Caffe 中 。 
下載 LMDB 源码 。 无 须 配 置 ， 直 接 编译 : 


$ make 


编译 成 功 后 , 将 Imdb.h $5 UI /home/yourname/local install/include, 将 编译 生成 的 liblmdb.so 
拷贝 到 /home/yourname/local install/lib/ 


下 载 leveldb-1.7.0.targz， 解 压 : 


tar zxvf leveldb-1.7.0.tar.gz *' 

make 

cp -r include/leveldb ~/local_install/include/ 
cp libleveldb.so* -/local install/lib/ 




















LMDB 和 LEVELDB 的 使 用 方法 可 以 参考 Caffe 源 但 中 的 db Imdb.hpp. db Imdb.cpp. 
db leveldb.hpp 和 db leveldb.cpp. 


5.9 Snappy 


Snappy -AHKERA CE. CEREBRAL HR 
Snappy LL zlib 更 快 ， 但 文件 相对 要 大 20% 一 100%。 





esl 


的 压缩 率 。 


(1) 下 载 snappy-1.1.1.tar.gz 并 解压 : 


tar zxvf snappy-l.l.l.tar.gz 
cd snappy-1.1.1/ 


(2) 配置 ; 














./configure --prefix-/home/yourname/local install/ 





(3) 编译 安装 ; 


make && make install 


5.10 “小 结 


按照 前 儿 节 介绍 编译 、 安 装 所 有 依赖 包 后 ， 我 们 检查 一 下 今天 的 工作 收获 : 


ww ai bbt. com DODOODDOD 


44 RES): 21 天 实战 Caffe 


$ cd /home/yourname/local install/ 


$ tree -d -L 2 





トーー bin // 存放 编译 生成 的 可 执行 程序 
トーー include // 存放 依赖 包 API 的 尖 文 件 ， 编 译 时 加 =I 包 售 该 目录 
-一 一 - boost 
トーー aflags 
トーー glog 
上 一 一 google 
トー ieveldb 
トーー opencv 


L—— opencv2 


| 
| 
| 
| 
| 
| 
| 
トーー lib // 存放 依赖 包 编译 后 生成 的 库 文 件 ， 编 译 时 加 -L 包含 该 目录 
| トー emake  // 运行 时 记得 将 该 目录 加 入 LD LIBRARY PATH 环境 变量 中 
| トーー pkgconfig 

| [ーーー python2.7 

share // 额外 文件 

ト 一 doc 

トーー hdf5 examples 

= OpenCV 


LI 


17 directories 


将 依赖 从 系统 安装 包 切 换 到 今天 手动 编译 的 依赖 包 ， 需 要 修改 Caffe 目录 下 的 
Makefile.config， 找 到 如 下 几 行 : 
# 额外 头 文件 ， 库 包含 选项 ， 我 们 需要 添加 今天 的 所 有 依赖 包 安装 路 径 
INCLUDE DIRS := /home/yourname/local install/include $(PYTHON INCLUDE) \ 
/usr/local/include 
LIBRARY DIRS :-/home/yourname/local install/lib $(PYTHON LIB) \ 
/usr/local/lib /usr/lib 
# 注意 将 今天 的 依赖 包 路 径 放 在 系统 路 径 前 面 ， 可 保证 先 引 用 的 是 编译 包 而 不 是 系统 包 





在 Caffe 根 目录 下 执行 make， 看 看 有 什么 反应 ? 
① 如 果 很 不 幸 的 话 ， 会 看 到 如 下 报错 信息 : 


$ make 
PROTOC src/caffe/proto/caffe.proto 
make: protoc: Command not found 


make: *** [.build release/src/caffe/proto/caffe.pb.h] Error 127 
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说 明 没 找到 protoc 命令 ， 此 时 应 参照 5.1 节 安 装 ProtoBuffer 工具 。 如 果 安 装 了 仍然 报错 ， 则 需 
要 参照 5.1 节 的 步骤 设置 PATH 环境 变量 。 


(2) 如 果 编 译 Caffe 时 报错 信息 为 : 


./include/caffe/common.hpp:4:32: fatal error: boost/shared ptr.hpp: No such file or 
directory 


#include «boost/shared ptr.hpp> 
compilation terminated. 


make: *** [, build release/src/caffe/layer factory.o] Error 1 
说 明 没 有 安装 Boost 库 ， 应 参照 3.2 T$ zc Boost. 
© 继续 make. 


如 果 make 报错 信息 如 下 : 


./include/caffe/common.hpp:5:27: fatal error: gflags/gflags.h: No such file or directory 
*include <gflags/gflags.h> 
compilation terminated. 


make: *** [.build release/src/caffe/layer factory.o] Error 1 
说 明 没有 安装 GFLAGS， 请 参考 5.3 节 步 骤 安 装 GFLAGS。 


D 再 次 执行 make 编译 Caffe， 报 错 信息 如 下 : 


$ make 
PROTOC src/caffe/proto/caffe.proto 
CXX .build release/src/caffe/proto/caffe.pb.cc 
CXX src/caffe/layer factory.cpp 
In file included from ./include/caffe/blob.hpp:8:0, 
from ./include/caffe/layer.hpp:8, 
from src/caffe/layer factory.cpp:8: 
./include/caffe/common.hpp:6:26: fatal error: glog/logging.h: No such file or directory 
*include «glog/logging.h» 
compilation terminated. 


make: *** [.build release/src/caffe/layer factory.o] Error 1 


需 按照 5.4 节 步 又 安装 GLOG。 
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(5) 如 果 编 译 Caffe 时 报错 信息 为 : 


$ make 

CXX src/caffe/layer factory.cpp 

In file included from ./include/caffe/common.hpp:19:0, 
from ./include/caffe/blob.hpp:8, 
from ./include/caffe/layer.hpp:8, 
from src/caffe/layer factory.cpp:8: 


./include/caffe/util/device alternate.hpp:34:23: fatal error: cublas v2.h: No such file 
or directory 


#include «cublas v2.h» 
compilation terminated. 


make: *** [.build release/src/caffe/layer factory.o] Error 1 


则 报错 原因 是 没有 找到 cuBLAS 头 文件 。 解决 方法 有 两 种 : 一 是 如 果 没 有 GPU 硬件 设备 ， 需 修 
改 Makefile.config, 打开 CPU ONLY 选项 即 可 , 编译 时 会 自动 绕 过 CUDA 相关 的 源码 ， 这 样 只 
能 在 CPU 上 运行 Caffe: 二 是 可 参考 后 面 第 15 天 内 容 安装 CUDA、cuDNN， 自 动 消除 该 错误 。 


@ 如 果 编 译 Caffe 时 报错 信息 为 : 


$ make 
CXX src/caffe/layer factory.cpp 
In file included from ./include/caffe/util/math functions.hpp:11:0, 
from ./include/caffe/syncedmem.hpp:7, 
from ./include/caffe/blob.hpp:10, 
from ./include/caffe/layer.hpp:8, 
from src/caffe/layer factory.cpp:8: 


./include/caffe/util/mkl alternate.hpp:11:19: fatal error: cblas.h: No such file or 
directory 


#include «cblas.h» 


^ 


compilation terminated. 


make: *** [.build release/src/caffe/layer factory.o] Error 1 
解决 方法 须 参考 5.5 节 的 OpenBLAS 安装 过 程 。 


C) 如 编译 Caffe 时 ， 报 错 信息 如 下 : 


$ make 
CXX src/caffe/layer factory.cpp 


In file included from ./include/caffe/common layers.hpp:10:0, 
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from ./include/caffe/vision layers.hpp:10, 

from src/caffe/layer factory.cpp:ll: 
./include/caffe/data layers.hpp:8:18: fatal error: hdf5.h: No such file or directory 
#include "hdf5.h" 


^ 


compilation terminated. 


make: *** [.build release/src/caffe/layer factory.o] Error 1 
则 参考 5.6 节 的 HDFS 安装 过 程 来 加 以 解决 。 


(& 如 编译 Caffe 时 报错 信息 如 下 : 


$ 

CXX src/caffe/layer factory.cpp 

CXX src/caffe/util/io.cpp 

src/caffe/util/io.cpp:5:33: fatal error: opencv2/core/core.hpp: No such file or directory 


include «opencv2/core/core.hpp» 


^ 


compilation terminated. 


make: *** [.build release/src/caffe/util/io.o]'Error 1 
说 明 未 安装 OpenCV, 参考 5.7 节 进 行 安装 。 


(9) 安装 OpenCV 3.0 后 , "Ill: Caffe make 时 仍 报错 : 


CXX/LD -o .build release/tools/convert imageset.bin 

-build release/lib/libcaffe.so: undefined reference tocv::imread(cv::String consti, 
int)'.build release/lib/libcaffe.so: undefined reference tocv::imencode(cv::String 
const&, cv:: InputArray const&, std::vector >&, std::vector > const&)' 


原因 就 是 OpenCV 3.0 把 imread 相关 函数 放 到 imgcodecs.lib 中 了 ， 而 非 原来 的 imgproc.lib 中 。 
解决 方法 为 修改 Makefile 文件 (注意 不 是 Makefile.config)， 在 


LIBRARIES += glog qflags protobuf leveldb snappy \ 
lmdb boost system hdf5 hl hdf5 m \ 


opencv core opencv highgui opencv imgproc opencv_imgcodecs 


位 置 的 最 后 添加 opencv imgcodecs 即 可 。 新版 Caffe 通过 在 Makefile.config 中 增加 编译 选项 
(OPENCV_VERSION :=3) 修复 了 这 一 问题 。 

没有 安装 LMDB 时 ， 编 译 Caffe 会 有 如 下 报错 信息 : 
$ make 
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CXX src/caffe/util/io.cpp 

CXX src/caffe/util/cudnn.cpp 

CXX src/caffe/util/db lmdb.cpp 

In file included from src/caffe/util/db lmdb.cpp:1:0: 

./include/caffe/util/db lmdb.hpp:6:18: fatal error: lmdb.h: No such file or directory 
#include "lmdb.h" 

compilation terminated. 


make: *** [.build release/src/caffe/util/db lmdb.o] Error 1 
解决 方法 请 参考 5.8 T LMDB 编译 过 程 。 
d) 未 安装 LEVELDB 时 ， 编 译 Caffe 报错 信息 如 下 : 


$ make 

CXX src/caffe/util/db lmdb.cpp 

CXX src/caffe/util/im2col.cpp 

CXX src/caffe/util/insert splits.cpp 

CXX src/caffe/util/upgrade proto.cpp 

CXX src/caffe/util/db.cpp 

In file included from src/caffe/util/db.cpp:2:0: 


./include/caffe/util/db leveldb.hpp:6:24: fatal error: leveldb/db.h: No such file or 
directory 


#include "leveldb/db.h" 


^ 


compilation terminated. 


make: *** [.build release/src/caffe/util/db.o] Error 1 
需要 参考 5.8 节 安 装 LEVELDB。 


(2 编译 Caffe 时 报错 信息 如 下 : 


AR -o .build release/lib/libcaffe.a 

LD -o .build release/lib/libcaffe.so 
/usr/bin/ld: cannot find -lsnappy 
collect2: error: ld returned 1 exit status 


make: *** [.build release/lib/libcaffe.so] Error 1 
表示 缺少 Snappy FE, 参考 5.9 节 安 装 即 可 。 


到 此 为 止 ，Caffe 编译 一 切 正 常 。 
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继续 编译 、 运 行 测 试 代码 : 
$ export LD LIBRARY PATH-/home/yourname/local install/lib:$LD LIBRARY PATH 
$ export LD LIBRARY PATH-/usr/local/cuda/lib64:$LD LIBRARY PATH 
$ make test 
$ make runtest 
如果 希望 使用 Python 5k Matlab 调用 Caffe， 则 还 需 编 译 外 壳 : 
$ make pycaffe 
$ make matcaffe 
最 后 还 可 编译 生成 可 发 布 安装 包 ， 用 来 交付 给 其 他 调用 方 。 
$ make distribute 
掌握 了 今天 和 昨天 的 内 容 ， 并 能 举一反三 地 解决 其 他 开源 项 目 安装 过 程 中 的 问题 ， 会 让 你 


对 各 类 大 型 软件 系统 部 署 更 加 得 心 应 手 ， 可 成 长 为 优秀 的 系统 工程 师 。 


511 练习 题 


思考 : 为 什么 没有 igemm 函数 ? 


512 参考 資料 


[1] 百度 云 盘 Chttp://pan.baidu.com/s/Isks4XFv, 14369: idi7) 
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今天 我 们 将 通过 运行 一 个 完整 的 例子 来 熟悉 Caffe 的 基本 使 用 。 
6.51 MNIST 数据 集 


MNIST (Mixed National Institute of Standards and Technology) 是 一 个 大 型 的 手写 体 数 字数 
据 库 , 广泛 用 于 机 器 学 习 领 域 的 训练 和 测试 ， 由 纽约 大 学 Yann LeCun 教授 整理 ， 下 载 链 接见 参 
考 资料 [1]。MNIST 包括 60000 个 训练 集 和 10000 个 测试 集 ， 每 张 图 都 已 经 进行 尺寸 归 一 化 、 数 
字 居 中 处 理 ， 固 定 尺寸 为 28 像素 x 28 像素 。 图 6-1 展示 了 MNIST 中 一 些 样本 。 
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图 6-1 MNIST 样 本 
6.1.1 下載 MNIST 数据 集 
MNIST 数据 集 可 以 在 Caffe 源码 框架 的 data/mnist 下 用 get_mnist.sh 脚本 下 载 。 
$ cd data/mnist/ 


./get mnist.sh 
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$ tree 


-一 一 get mnist.sh 

ーー t10k-images-idx3-ubyte 

トーー ti0k-labels-idxl-ubyte 

トーー train-images-idx3-ubyte 
レーー train-labels-idxl-ubyte 


0 directories, 5 files 


我 们 看 一 下 get mnist.sh 脚本 内 容 。 


#!/usr/bin/env sh 


# 该 脚本 用 于 下 载 MNIST 数据 集 并 解压 


DIR-"S( cd "S(dirname "SO")" ; pwd -P )" 
cd SDIR 


echo "Downloading..." 

wget --no-check-certificate http://yann.lecun.com/exdb/mnist/train-images-idx3-ubyte.gz 
wget --no-check-certificate http://yann.lecun.com/exdb/mnist/train-labels-idxl-ubyte.gz 
wget --no-check-certificate http://yann.lecun.com/exdb/mnist/ti0k-images-idx3-ubyte.gz 
wget --no-check-certificate http://yann.lecun.com/exdb/mnist/tlOk-labels-idxl-ubyte.gz 
echo "Unzipping..." 

gunzip train-images-idx3-ubyte.gz 

gunzip train-labels-idxl-ubyte.gz 

gunzip tlÜk-images-idx3-ubyte.gz 


gunzip t10k-labels-idxl-ubyte.gz 


# Creation is split out because leveldb sometimes causes segfault 


# and needs to be re-created. 


echo "Done." 


可 見 , MNIST 原始 数据 为 4 條 文件 , 如 表 6-1 所 示 。 
6.1.2 MNIST 数据 格式 描述 


MNIST 具体 的 文件 格式 描述 如 表 6-2 至 表 6-5 所 示 。 
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表 6-1 MNIST 原始 数据 文件 





train-images-idx3-ubyte 训练 焦 ， 图 片 





train-jabels-idx1-ubyte 训练 集 ， 标 签 





tl 0k-images-idx3-ubyte 测试 集 ， 图 片 


t LOK-labels-idx 1 -ubyte 测试 集 ， 标 得 


表 6-2 训练 集 图 片 文 件 格式 描述 








train-images-idx3-ubyte 
数据 类 型 
0000 32 位 将 型 2051 魔 数 (大 端 存储 ) 
0004 32 (tu Nn 60000 文件 包含 条 目 总 数 

















0008 32 位 整 型 





0012 32 位 整 卉 2 列 数 
像 素 信 (0-255) 
像素 值 (0-255) 

















train-labels-idx l-ubyte 
文件 備 移 量 数据 类 型 
32 frin 2049 魔 数 〔 大 端 存储 ) 
60000 文件 包含 条 目 总 数 














标签 值 (0-9) 





标签 值 (0-9) 








表 6-4 测试 集 图 片 文 件 格式 描述 


tl0k-images-idx3-ubyte 
文件 備 移 量 数据 类 型 i 描 述 
2051 魔 数 〈 大 端 存储 ) 
32 位 整 弄 10000 文件 包含 条 目 总 数 
32 位 整 型 行 数 
x (oem 
T 1 


8 ht ? 像素 值 (0~255) 
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表 6-5 测试 集 标签 文件 格式 描述 






t10k-labels-idx1-ubyte 


2049 WEB (大 端 存 備 ) 
| 


注意 : 图 片 文件 中 像素 按 行 组 织 ,像素 值 0 表示 背景 (白色 ), 像素 值 255 表示 前 景 ( 黑色 )。 











文件 偏 移 量 





数据 类 型 






















0000 


0004 
0008 


32 位 整 型 
32 位 整 型 


















con 


8 位 字 节 




















6.1.3 ”转换 格式 


下 载 到 的 原始 数据 集 为 二 进 制 文件 ， 需 要 转换 为 LEVELDB 或 LMDB 才能 被 Caffe 识别 。 
我 们 已 经 编译 好 Caffe， 只 需 在 Caffe 根 目录 下 执行 以 下 脚本 : 


$ ./examples/mnist/create mnist.sh 
Creating lmdb... 


Done. 


浏览 例 程 所 在 目录 examples/mnist， 发 现 生 成 了 examples/mnist/mnist train Imdb/ 和 
examples/mnist/mnist test_Imdb/ 两 个 目录 ， 每 个 目录 下 都 有 两 个 文件 ;data.mdb 和 lock.mdb. 
$ ls -1 examples/mnist/mnist train lmdb/ 
total 60320 
-rw-rw-r-- 1 yourname yourname 61763584 Oct 16 01:45 data.mdb 
-rw-rw-r-- 1 yourname yourname 8192 Oct 16 01:45 lock.mdb 
$ ls -1 examples/mnist/mnist test lmdb/ 
total 10100 
-rw-rw-r-- 1 yourname yourname 10338304 Oct 16 01:45 data.mdb 


-rw-rw-r-- 1 yourname yourname 8192 Oct 16 01:45 lock.mdb 

顾名思义 ，mnist train Imdb 就 是 生成 的 LMDB 格式 的 MNIST 训练 集 ，mnist test Imdb 则 
为 LMDB m HAE (又 称 为 验证 集 )。 
#!/usr/bin/env sh 


# 该 脚本 将 MNIST 原始 数据 转换 为 mdb/leveldb 格式 


# lmdb/leveldb 生成 路 径 
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EXAMPLE=examples/mnist 
Ba ah ee 
DATA=data/mnist 

# 二 进 制 文件 路 径 
BUILD-build/examples/mnist 


* 后 端 类 型 ， 可 选 Imdb/leveldb 
BACKEND-"lmdb" | 


echo "Creating S(BACKEND]..." 


# 如 果 已 经 存在 lmdb/leveldb, WHR 
rm -rf SEXAMPLE/mnist train ${BACKEND} 
rm -rf SEXAMPLE/mnist test S(BACKEND] 


# 创建 训练 集 db 
S$BUILD/convert mnist data.bin SDATA/train-images-idx3-ubyte \ 
SDATA/train-labels-idxl-ubyte SEXAMPLE/mnist train $(BACKEND] --backend=$ {BACKEND} 


# 创建 测试 集 db 
$BUILD/convert mnist data.bin $DATA/tlOk-images-idx3-ubyte V 
$DATA/tlO0k-labels-idxl-ubyte $EXAMPLE/mnist test S(BACKEND]) --backend=$ {BACKEND} 


echo "Done." 


上 述 脚本 调用 了 build/examples/mnist/convert mnist data.bin 这 个 可 执行 程序 ， 对 应 的 源 文 
件 为 examples/mnist/convert mnist data.cpp, 用 vi 打开 这 个 源 文 件 看 一 下 : 


// 本 程序 将 MNIST 数据 集 转换 为 (默认 的 ) Imdb 或 

// leveldb (--backend-leveldb) 格式 ， 便 于 Caffe 载 入 数据 

// 命令 行 参数 说 明 : 

// convert mnist data [FLAGS] 输入 图 片 文 件 、 输 入 标签 文件 、 输 出 db 文件 


#ineclude <gflags/gflags.h> 

#include <glog/logging.h> 

#include <google/protobuf/text_format.h> 
#include <leveldb/db.h> 

#include «leveldb/write batch.h» 
#include <lmdb.h> 


#include <stdint.h> 
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#include 


#include 


#include 


#include 
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«sys/stat.h» 


«fstream» // NOLINT(readability/streams) 


«string» 


"Caffe/proto/caffe.pb.h" 


using namespace caffe; // NOLINT (build/namespaces) 


using std::string; 


// GFLAGS 工具 定义 命令 行 选项 backend， 默 认 值 为 Imdb, 即 --backend=lmdb 
DEFINE string(backend, "Imdb", "The backend for storing the result"); 
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// 大 小 端 转换 。MNIST 原始 数据 文件 中 32 位 整 型 值 为 大 端 存储 ，C/VC++ 变 量 为 小 端 存储 ， 因 此 需要 加 入 转换 机 制 


uint32 t swap endian(uint32 t val) | 
val = ((val << 8) & OxFFOOFFOO) | ((val >> 8) & OxFFOOFF); 
return (val «« 16) | (val »» 16); 


void convert dataset(const char* image filename, const char* label filename, 


const char* db path, const string& db backend) { 
// 用 c++ 输入 文件 流 以 二 进 制 方式 打开 文件 


std::ifstream image file(image filename, std::ios::in | std::ios::binary); 





std::ifstream label file(label filename, std::ios::in | std::ios::binary); 


CHECK(image file) «« "Unable to open file " «« image filename; 


CHECK(label file) «« "Unable to open file " «« label filename; 
// 读 取 麻 数 和 基本 信息 


uint32 t magic; 


uint32 t num items; 


uint32 t num labels; 


uint32 t rows; 


uint32 t cols; 


// 读 取 魔 数 (4 Bytes) 
image file.read(reinterpret cast«char*»(&magic), 4); 


// 大 端 到 小 端 转换 


magic 三 


swap endian (magic); 


// 校 验 魔 数 是 否 为 2051， 不 是 则 报错 
CHECK EQ(magic, 2051) << "Incorrect image file magic."; 
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// 同 理 ， 校 验 标签 文件 

label file.read(reinterpret cast«char*»(&magic), 4); 
magic = swap endian (magic); 

CHECK EQ(magic, 2049) «« "Incorrect label file magic."; 
image file.read(reinterpret castcchar*»(&num items), 4); 
num items = swap endian(num items); 

label file.read(reinterpret cast«char*»(&num labels), 4); 
num labels = swap endian(num labels); 

CHECK EQ(num items, num labels); 

image file.read(reinterpret cast«char*»(&rows), 4); 

rows = swap endian(rows); 

image file.read(reinterpret cast«char*»(&cols), 4); 


cols = swap endian(cols); 


// lmdb 相关 句柄 

MDB env *mdb env; 

MDB dbi mdb dbi; 

MDB val mdb key, mdb data; 

MDB txn *mdb txn; 

// leveldb 相关 句柄 

leveldb::DB* db; 

leveldb::Options options; 
options.error if exists - true; 
options.create if missing - true; 
options.write buffer size - 268435456; 
leveldb::WriteBatch* batch = NULL; 


// 打電 db 

if (db backend == "leveldb") { // leveldb 
LOG(INFO) «« "Opening leveldb " «« db path; 
leveldb::Status status = leveldb::DB::Open( 

options, db path, &db); 
CHECK(status.ok()) << "Failed to open leveldb " << db path 
<< ". Is it already existing?"; 
batch = new leveldb::WriteBatch(); 

} else if (db backend == "lmdb") (| // 1mdb 
LOG(INFO) << "Opening Imdb " << db path; 
CHECK EQ(mkdir(db path, 0744), 0) 

«« "mkdir " «« db path «« "failed"; 
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CHECK EQ(mdb env create(&mdb env), MDB SUCCESS) «« "mdb env create failed"; 
CHECK EQ(mdb env set mapsize(mdb env, 1099511627776), MDB SUCCESS) // 1TB 
«« "mdb env set mapsize failed"; 
CHECK EQ(mdb env open(mdb env, db path, 0, 0664), MDB SUCCESS) 
«« "mdb env open failed"; 
CHECK EQ(mdb txn begin(mdb env, NULL, 0, &mdb txn), MDB SUCCESS) 
«« "mdb txn begin failed"; 
CHECK EQ (mdb open(mdb txn, NULL, 0, &mdb dbi), MDB SUCCESS) 


«« "mdb open failed. Does the lmdb already exist? "; 


else { 


LOG(FATAL) << "Unknown db backend " << db backend; 


// 将 读 取 数 据 保存 至 db 

char label; 

char* pixels - new char[rows * cols]; 
int count - 0; 

const int kMaxKeyLength = 10; 

char key cstr[kMaxKeyLength]; 


string value; 


Datum datum; 
datum.set channels(1); 
datum.set height (rows); 
datum.set width(cols); 
LOG(INFO) << "A total of " << num items << " items."; 
LOG(INFO) << "Rows: " << rows << " Cols: " << cols; 
for (int item id = 0; item id < num items; ++item_id) { 
image file.read(pixels, rows * cols); 
label file.read(&label, 1); 
datum.set data(pixels, rows*cols); 
datum.set label(label); 
snprintf(key cstr, kMaxKeyLength, "%08d", item id); 
datum.SerializeToString(&value); 


string keystr(key cstr); 


// 放 到 数据 库 中 
if (db backend == "leveldb") | // leveldb 
batch-»Put(keystr, value); 
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} else if (db backend == "1mdb") ( // Imdb 
mdb data.mv size = value.size(); 
mdb data.mv data = reinterpret cast«void*»(&value[0]); 
mdb key.mv size - keystr.size(); 
mdb key.mv data = reinterpret cast«void*»(&keystr[0]); 
CHECK EQ(mdb put(mdb txn, mdb dbi, &mdb key, &mdb data, 0), MDB SUCCESS) 
«« "mdb put failed"; 





) else { 


LOG(FATAL) << "Unknown db backend " << db backend; 


if (++count $ 1000 == 0) { 
// 批量 提交 更 改 
if (db backend == "leveldb") { // leveldb 
db-»Write(leveldb::WriteOptions(), batch); 
delete batch; 
batch = new leveldb::WriteBatch(); 
} else if (db backend == "lmdb") { // lmdb 
CHECK EQ(mdb txn commit (mdb txn), MDB SUCCESS) 
<< "mdb txn commit failed"; 
CHECK EQ(mdb txn begin(mdb env, NULL, 0, &mdb txn), MDB SUCCESS) 
<< "mdb txn begin failed"; 
) else { 


LOG(FATAL) «« "Unknown db backend " «« db backend; 


} 
// 写 最 后 一 个 batch 
if (count $ 1000 != 0) { 
if (db backend -- "leveldb") | // leveldb 
db-»Write(leveldb::WriteOptions(), batch); 
delete batch; 
delete db; 


ーー 


else if (db backend == "imdb") | // lmdb 
CHECK EQ(mdb txn commit(mdb txn), MDB SUCCESS) «« "mdb txn commit failed"; 
mdb close(mdb env, mdb dbi); 


mdb env close(mdb env); 


else { 


LOG(FATAL) «« "Unknown db backend " «« db backend; 
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} 

LOG(ERROR) << "Processed " << count << " files."; 
} 
delete[] pixels; 


int main(int argc, char** argv) { 
#ifndef GFLAGS GFLAGS H_ 
namespace gflags = google; 
#tendif 
gflags::SetUsageMessage ("This script converts the MNIST dataset to\n" 
"the lmdb/leveldb format used by Caffe to load data.\n" 
"Usage:'n" 
" convert mnist data [FLAGS] input image file input label file " 
"output db file\n" 
"The MNIST dataset could be downloaded atn" 
http://yann.lecun.com/exdb/mnist/\n" 
"You should gunzip them after downloading," 
"or directly use data/mnist/get_mnist.sh\n"); 


gflags::ParseCommandLineFlags(&argc, &argv, true); 


// FLAGS backend fF iT Mitt DEFINE string 定义 ， 是 字符 串 类 型 
const string& db backend = FLAGS backend; 


if (arge != 4) { 
gflags::ShowUsageWithFlagsRestrict(argv[0], 
"examples/mnist/convert mnist data"); 
} else { 
google::InitGoogleLogging(argv[0]); 
convert dataset(argv[1], argv[2], argv[3], db backend); 
} 


return 0; 


通过 上 述 源 代码 ， 读 者 可 以 熟悉 一 下 LEVELDB H LMDB 的 基本 使 用 方法 。 在 Caffe 源码 
中 还 会 再 见 到 它们 。 
TIPS: Caffe 为 什么 采用 LMDB、LEVELDB， 而 不 是 直接 读 取 原 始 数 据 ? 


EK. 一 方面 ， 教 据 类 型 多 种 多 样 ( 有 二 进 制 文件 、 文 本 文件 、 编 码 后 的 图 像 文 件 如 JPEG 
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或 PNG, MARRE) 不 可 能 用 一 套 代 码 实现 所 有 类 型 的 输入 数据 读 取 ， 转 换 为 统一 
格式 可 以 简化 数据 读 取 层 的 实现 ; 另 一 方面 , 使 用 LMDB、LEVELDB 可 以 提高 磁盘 IO 利用 率 。 


6.2 LeNet-5 模型 


PE FoU THE EU A Ee TRE? 2] BERI -LeNet-5P!, BUTS Yann LeCun 最早 
提出 的 ， 并 应 用 到 邮政 编码 识别 中 。 


6.2.1 . LeNet-5 模型 描述 


本 节 例 程 中 的 LeNet-5 模型 与 原版 稍 有 不 同 〈 例 如 ， 将 Sigmoid 激活 函数 改 为 ReLU)， 其 
描述 文件 为 examples/mnist/lenet train valprototxt, 内 容 如 下 : 


name: "LeNet" // W (Net) 的 名 称 为 heNet 
layer ( // 定义 一 个 层 (Layer) 
name: "mnist" // 层 的 名 称 为 mnist 
type: "Data" /7 层 的 类 型 为 数据 层 
top: "data" // 层 的 输出 blob PT: data fll label 


top: "label" 


include { 


该 层 参数 只 在 训练 阶段 有 效 


t. 


phase: TRAIN i 
} 


transform param { 


scale: 0.00390625 // 数据 变换 使 用 的 数据 缩放 因子 
} 
data_param { // 数据 层 参数 
source: "examples/mnist/mnist train lmdb" // LMDB 的 路 径 
batch size: 64 // 批量 数目 ， 一 次 读 取 64 张 图 
backend: LMDB // 数据 格式 为 LMDB 


} 
layer { // 一 个 新 数据 层 ， 名 字 也 叫 mnist， 输 出 blob 也 是 data 和 label， 但 是 这 里 定义 的 参数 只 在 分 类 阶 
段 有 效 

name: "mnist" 


type: "Data" 


top: "data" 
top: "label" 
include { 
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phase: TEST 

) 

transform param { 
scale: 0.00390625 

} 


data_param { 
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source: "examples/mnist/mnist test lmdb" 


batch size: 100 


backend: LMDB 


} 


layer { 
name: "convi" 
type: "Convolution" 
bottom: "data" 
top: "convi" 
param { 
lr mult: 1 
} 
param { 
lr mult: 2 


} 

convolution param { 
num_output: 20 
kernel size: 5 
stride: 1 
weight filler { 

type: "xavier" 
} 
bias filler { 


type: "constant" 


} 

layer { 
name: "pooll" 

type: 

bottom: 


"Pooling" 
"convl" 


top: "pooll" 


// 定义 一 个 新 的 卷 积 层 convi. 输入 blob 为 data， 输 出 blob convi 


// 权 值 学 习 速率 倍 乘 因子 ，1 倍 表 示 保 持 与 全 局 参数 一 至 


// bias 学 习 速 率 倍 乘 因子 ， 是 全 局 参数 的 2 倍 


// 卷 积 计 算 参 数 

// 输出 feature map 数目 为 20 

// 卷 积 核 尺 寸 , 5 x 5 

// 卷 积 输出 跳跃 间隔，1 表示 连续 输出 ， 无 跳跃 
// 权 值 使 用 xavier 填充 器 


// bias 使用 常 数 填 充 器 , BUA 0 


// 定义 新 的 下 采样 层 pec11， 输 入 blob 为 conv1, fiH blob X poo11 
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pooling param { // 下 采样 参数 
pool: MAX // 使 用 最 大 值 下 采样 方法 
kernel size: 2 // 下 采样 窗口 尺寸 2 x 2 
stride: 2 /7 下 采样 输出 跳跃 间隔 2 x 2 


} 

layer { // 新 的 卷 积 层 ， 和 cony1 类 似 
name: "conv2" 
type: "Convolution" 
bottom: "pooll" 


top: ."conv2" 


param { 

lr mult: 1 
} 
param { 

lr mult: 2 


) 

convolution param { 
num output: 50 
kernel size: 5 
stride: 1 
weight filler | 

type: "xavier" 

} 
bias filler { 


type: "constant" 


} 
layer { // 新 的 下 采样 层 ， 和 poeol1 KW 
name: "pool2" 
type: "Pooling" 
bottom: "conv2" 
top: "pool2" 
pooling param { 
pool: MAX 
kernel size: 2 


stride: 2 
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} 


第 6 天 


layer 1 // 新 的 全 连接 层 ， 输 入 blob 为 poo12， 输 出 blob X ipl 


name: "ipl" 
type: "InnerProduct" 
bottom: "pool2" 
top: "ipi" 
param { 
lr mult: 1 
} 
param { 
lr mult: 2 
} 
inner product param | 
num output: 500 
weight filler { 
type: "xavier" 
} 
bias filler | 


type: "constant" 


} 
layer ( // 新 的 非 线性 层 ， 用 RenU 方法 
name: "relul" 
type: "ReLU" 
bottom: "ipl" 
top: "ipl" 
} 
layer | 
name: "ip2" 
type: "InnerProduct" 


bottom: "ipl" 


top: "ip2" 
param { 

lr mult: 1 
) 
param { 

lr malts 2 
! 


// 全 连接 层 参 数 
// 该 层 输 出 元 素 个 数 为 500 
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inner product param 1 
num output: 10 
weight filler { 

type: "xavier" 
} 
bias filler | 


type: "constant" 


} 
layer (. // 分 类 准确 率 层 ， 只 在 Testing 阶段 有 效 ， 输入 blob 为 ip2 和 label, fiji} blob accuracy: 
// 该 层 用 于 计算 分 类 准确 率 
name: "accuracy" 
type: "Accuracy" 
bottom: "ip2" 
bottom: "label" 
top: "accuracy" 
include { 
phase: TEST 
} 
} 
layer ( // 损失 层 ， 损 失 函 数 采 用 soEtmaxLoss, 输入 blob W ip2 和 label, {ih blob W loss 
name: "loss" 
type: "SoftmaxWithLoss" 
bottom: "ip2" 
bottom: "label" 


top: "loss" 


该 模型 利用 可 视 化 工具 绘制 其 结构 ， 如 图 6-2 所 示 。 























图 6-2 ”LeNet 模 型 结构 图 


通过 prototxt 和 图 6-2 可 以 清晰 地 看 到 LeNet 的 网 络 结构 。 数 据 源 mnist 负责 从 预 处 理 得 到 
的 Imdb 数据 库 中 读 取 图 像 数据 data 和 标签 数据 label, 图 像 数据 送 入 后 续 CNN 结构 中 进行 处 理 。 
结构 包括 一 组 由 卷 积 层 conv(1,2)+ 下 采样 层 pool(1,2) 交 蔡 形 成 的 特征 层 ， 以 及 两 个 全 连接 
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层 ipl 和 jp2 (类 似 于 多 层 感知 器 结构 )。 对 ip2 的 输出 进一步 同 标签 数据 label 对 比 ， 可 计算 分 
类 准确 率 accuracy 和 损失 值 loss. LeNet 的 apiid CNN 的 精髓 ， 理 解 该 模型 对 设计 更 大 模 
型 (如 ImageNet 数据 集 上 的 AlexNet、GoogleNet、VGG 等 ) 有 参考 价值 。 


6.2.2 训练 超 参数 


上 面 我 们 认识 了 MNIST 手写 体 数字 数据 库 和 LeNet CNN 模型 ， 下 面 来 正式 启动 Caffe 训 
练 过 程 ， 可 以 很 快 得 到 一 个 分 类 准确 率 在 99% 以 上 的 模型 。 
运行 examples/mnist/train_lenet.sh 脚本 。 用 vi 打开 该 脚本 ， 内 容 如 下 : 


#!/usr/bin/env sh 


./build/tools/caffe train --solver-examples/mnist/lenet solver.prototxt 





可 见 ， 调 用 了 前 面 编译 好 的 build/tools/caffe.bin 二 进 制 文件 ， 参 数 --solver=examples/mnist/ 
lenet_solver.prototxt 指定 了 训练 超 参 数 (Hyper-Parameter) 文件 ， 内 容 如 下 : 
# 用 于 训练 /预测 的 网 络 描述 文件 (ProtoBuffer 文本 格式 ) 


net: "examples/mnist/lenet train test.prototxt" 

# 预测 阶段 选 代 次 数 。 在 MNIST 例 程 下 ， 预 测 样本 组 (test batch) 大 小 为 100 
# 这 里 设置 预测 阶段 迭代 次 数 为 100 可 以 覆盖 全 部 10000 个 测试 集 

test iter: 100 

# 训练 时 每 迭代 500 次 ， 进 行 一 次 预测 

test interval: 500 

& 网 络 的 基础 学 习 速率 、 冲 量 和 权 衰 量 


base lr: 0.01 





momentum: 0.9 

weight decay: 0.0005 

# 学习 速率 的 衰减 策略 

lr policy: "inv" 

gamma: 0.0001 

power: 0.75 

k 每 经 过 100 次 迭代 ， 在 屏 蒂 上 打印 一 次 运行 log 
display: 100 

# 最大 途 代 次 数 

max 1ter: 10000 

# 每 5000 UCM {CFT ERI 
snapshot: 5000 


snapshot prefix: "examples/mnist/lenet" 
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# Caffe 求解 模式 为 CPU 模式 。 有 条 件 〈 见 第 15 KAA) 可 以 改 为 GPU 模式 


solver mode: CPU 


6.2.3 训练 日 志 


基于 MNIST 数据 集训 练 LeNet 的 运行 日 志 如 下 (以 下 输出 中 的 “WW” 后 面 内 容 为 笔者 注释 ， 
而 非 输 出 结果 ): 


$ ./examples/mnist/train lenet.sh 
// GLOG 输出 格式 : 日 期 时 间 进程 号 源码 文件 : 代码 行 号 ] 输出 信息 
// 利用 这 些 信息 便于 追踪 源码 运行 流程 ， 分 析 运 行 效 率 


// 使 用 ceu 模式 运行 

I0404 15:16:14.372139 1965830144 caffe.cpp:178] Use CPU. 

` 10404 15:16:14.376407 1965830144 solver.cpp:48] Initializing solver from parameters: 
// 打印 训练 超 参 数 文件 examples/mnist/lenet solver.prototxt 经 过 解析 的 内 容 

test iter: 100 

test interval: 500 

base lr: 0.01 

display: 100 

max iter: 10000 

lr policy: "inv" 

gamma: 0.0001 

power: 0.75 

momentum: 0.9 

weight decay: 0.0005 

snapshot: 5000 

snapshot prefix: "examples/mnist/lenet" 

solver mode: CPU 

net: "examples/mnist/lenet train test.prototxt" // 这 里 指定 了 CNN 网 络 描述 文件 


I0404 15:16:14.380017 1965830144 solver.cpp:91] Creating training net from net file: 
examples/mnist/lenet train test.prototxt 


// 解析 CNN 网 络 描述 文件 中 的 网 络 参数 ， 创 建 训 练 网 络 


10404 15:16:14.387284 1965830144 net.cpp:313] The NetState phase (0) differed from the 
phase (1) specified by a rule in layer mnist 


I0404 15:16:14.387363 1965830144 net.cpp:313] The NetState phase (0) differed from the 
phase (1) specified by a rule in layer accuracy 


10404 15:16:14.387398 1965830144 net.cpp:49] Initializing net from parameters: 
// 打印 训练 网 络 参数 描述 


name: "LeNet" 
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state 1 
phase: TRAIN 
} 
layer f 
name: "mnist" 
type: "Data" 
top: "data" 
top: "label" 
include { 
phase: TRAIN 
) 
transform param { 
scale: 0.00390625 
} 
data param { 
source: "examples/mnist/mnist train lmdb" 
batch size: 64 


backend: LMDB 


! 
7/…… 中 回 太 医 , 略 
layer { 
name: "loss" 
type: "SoftmaxWithLoss" 
bottom: "ip2" 
bottom: "label" 
top: "loss" 
} 
// 开始 盖 楼 了 ! 先 打 地 基 mnist 
I0404 15:16:14.387723 1965830144 layer factory.hpp:77] Creating layer mnist 
I0404 15:16:14.397619 1965830144 net.cpp:91] Creating Layer mnist 
// 产生 两 个 输出 ，data HAY BUR, label 为 标签 数据 - 
I0404 15:16:14.397647 1965830144 net.cpp:399] mnist -» data 
T0404 15:16:14.397691 1965830144 net.cpp:399] mnist -> label 
// 打开 训练 集 Imdb 
10404 15:16:14.401098 528384 db lmdb.cpp:38] Opened lmdb examples/mnist/mnist train lmdb 
// data 为 四 维 数组 ， 又 称 blob， 尺 寸 为 (64，1，28，28) 
I0404 15:16:14.402500 1965830144 data layer.cpp:41] output data size: 64,1,28,28 
10404 15:16:14.403103 1965830144 net.cpp:141] Setting up mnist 
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I0404 15:16:14.403123 1965830144 
10404 15:16:14.403136 1965830144 
// 统计 内 存 占用 情况 ， 会 逐 层 累 加 
I0404 15:16:14.403144 1965830144 
// mi 1 楼 , convi 

10404 15:16:14.403157 1965830144 
10404 15:16:14.403182 1965830144 


net.cpp:148] 
net.cpp:148] 





net.cpp:156] 


net.cpp:91] 





64 1 28 28 
64 (64) 


Top shape: (50176) 


Top shape: 


Memory required for data: 200960 


layer factory.hpp:77] Creating layer convl 


Creating Layer convl 


// convi 需要 一 个 输入 aata (来 自 上 一 层 mnist)， 产 生 一 个 输出 convi ( 送 入 下 一 层 ) 


10404 15:16:14.403250 1965830144 net.cpp:425] 
I0404 15:16:14.403270 1965830144 -net.cpp:399] 
I0404 15:16:14.403623 1965830144 net.cpp:141] 
// convi 输出 的 尺寸 为 (64，20，24，24) 


convl マー data 
convi -> convl 


Setting up convl 


10404 15:16:14.403643 1965830144 
// 统计 内 存 占用 情况 ， 逐 层 累 加 

“I0404 15:16:14.403655 1965830144 
I0404 15:16:14.403671 1965830144 
// …… 中 间 层 创建 过 程 类 似 ， 不 表 
I0404 15:16:14.403687 1965830144 
I0404 15:16:14.403743 1965830144 
I0404 15:16:14.403756 1965830144 
10404 15:16:14.403983 1965830144 
I0404 15:16:14.404001 1965830144 
T0404 15:16:14.404019 1965830144 
10404 15:16:14.404036 1965830144 
I0404 15:16:14.404063 1965830144 
I0404 15:16:14.404078 1965830144 
I0404 15:16:14.404098 1965830144 
I0404 15:16:14.404726 1965830144 
10404 15:16:14.404755 1965830144 
10404 15:16:14.404772 1965830144 
10404 15:16:14.404794 1965830144 
T0404 15:16:14.404824 1965830144 
T0404 15:16:14.404834 1965830144 
I0404 15:16:14.404845 1965830144 
10404 15:16:14.404862 1965830144 
10404 15:16:14.404871 1965830144 
I0404 15:16:14.404881 1965830144 
T0404 15:16:14.404888 1965830144 
10404 15:16:14.404901 1965830144 


H 


net.cpp:148] Top shape: 64 20 24 24 (737280) 


net.cpp:156] Memory required for data: 3150080 


layer factory.hpp:77] Creating layer pooll 
net. :91] Creating Layer pooll 
:425] 
:399] pooll -» pooll 


net. pooll «- convl 
net. 
:141] Setting up pooll 

7148) 64 20 12 12 (184320) 
cpp:156] Memory required for data: 3887360 
layer factory.hpp:77] Creating layer conv2 

21] 
425] 
399] 
141] 
148] 
156] 
layer factory.hpp:77] Creating layer pool2 


net. 
net. Top shape: 
net. 
net,cpp: Creating Layer conv2 
cpp: 
cpp: 
cpp: 
net.cpp: 


net. conv2 <- pooll 


net. conv2 -> conv2 
net. Setting up conv2 
Top shapes 64 50 8 8 (204800) 


net.cpp: Memory required for data: 4706560 


net.cpp:91] Creating Layer pool2 
. cpp: 425] 
. cpp: 399] 
.Cpp:141] 
.Cpp:148] 
.Cpp:156] 
layer factory.hpp:77] Creating layer ipl 


net pool2 «- conv2 


net pool2 -» pool2 
net Setting up pool2 


net 64 50 4 4 (51200) 


4911360 


Top shape: 
net Memory required for data: 


net.cpp:91] Creating Layer ipl 
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10404 
T0404 
10404 
10404 
10404 
10404 
10404 
10404 
10404 
10404 
10404 
10404 
10404 
10404 
10404 
10404 
10404 
10404 
10404 


15:16: 
15:16: 
15:16: 
15:16: 
L526: 
15:16: 
15:16: 
15:16: 
15:10: 
15116: 
15:16: 
15:16: 
15:16: 
15:16: 
18:16: 
15:106 
18:165 
15:06: 
15:16: 


14.404911 
14.404925 
14.409618 
14.409646 
14.409654 
14.409667 
14.409683 
14.409692 
14.409699 
14.409709 
14.409715 
14.409723 
14.409728 
14.409741 
14.409747 
14.409755 
14.409821 
14.409827 
14.409834 


// 盖 最 后 一 层 loss 


I0404 15:16: 
10404 15:16: 


I0404 15:16: 
10404 15:16: 
10404 15:16: 
I0404 15:16: 
I0404 15:16: 


// 输出 1oss 尺寸 为 1, 


14.409842 
14.409853 


14.409860 
14.409867 
14.409876 
14.409898 
14.409919 


1965830144 
1965830144 
1965830144 
1965830144 
1965830144 
1965830144 
1965830144 
1965830144 
1965830144 
1965830144 
1965830144 
1965830144 
1965830144 
1965830144 
1965830144 
1965830144 
1965830144 
1965830144 
1965830144 


net.cpp:425] 
net.cpp:399] 
net.cpp:141] 
net.cpp:148] 
net.cpp:156] 


第 6 天 


ipl <- poo12 

ipl -> ipl 

Setting up ipl 

64 500 (32000) 


Memory required for data: 


Top shape: 
5039360 


layer factory.hpp:77] Creating layer relul 


net.cpp:91] 

net.cpp:425] 
net.cpp:386] 
net.cpp:141] 
net.cpp:148] 
net.cpp:156] 


Creating Layer reiul 


relul <= ipl 
relul -> ipl (in-place) 
Setting up relul 

64 500 (32000) 


Memory required for data: 


Top shape: 
5167360 


layer factory.hpp:77] Creating layer ip2 


net 
net.cpp:425] 
-cpp:399] 


.Cpp:141] 


net 
net 


net.cpp:148] 


net.cpp:156] 


.Cpp:91] Creating Layer ip2 


ip2 <- ipl 

ip2 -> ip2 
Setting up ip2 
64 10 


Top shape: (640) 


Memory required for data: 5169920 


1965830144 layer factory.hpp:77] Creating layer loss 


1965830144 net.cpp:91] Creating Layer loss 
// 该 层 需 要 两 个 输入 ip2 和 1abel， 产 生 一 个 输出 loss 


1965830144 
1965830144 
1965830144 
1965830144 
1965830144 


net.cpp:425] 
net.cpp:425] 
net.cpp:399] 


loss «- ip2 


loss «- label 


loss -» loss 


layer factory.hpp:77] Creating layer loss 


net.cpp:141] 


loss weight 参数 为 1 


I0404 15:16:14.409925 1965830144 net.cpp:148] 


I0404 15:16:14.409931 1965830144 net.cpp: 


151] 


// 统计 内 存 占用 情况 ， 需 要 51699248, Bl 4.93MB 


I0404 15:16:14.409942 1965830144 net.cpp: 


156] 


// 从 后 往 前 统计 哪些 层 需要 做 反 向 传播 计算 (BP) 


I0404 15: 
I0404 15: 
I0404 15:16: 
10404 15:16: 
I0404 15:16: 


16: 
l6; 


14.409947 
14.409955 
14.409960 
14.409965 
14.409971 


1965830144 
1965830144 
1965830144 
1965830144 
1965830144 


217] 
211] 
217] 
217] 
211] 


net.cpp: 
net.cpp: 
net.cpp: 
net.cpp: 


net.cpp: 


Setting up loss 


Top shape: (1 
with loss weight 1 


Memory required for data: 5169924 


loss needs backward computation. 
ip2 needs backward computation. 
relul needs backward computation. 
ipl needs backward computation. 


pool2 needs backward computation. 
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T0404 15:16:14.409977 1965830144 net.cpp:217] conv2 needs backward computation. 

T0404 15:16:14.409982 1965830144 net.cpp:217] pooll needs backward computation. 

10404 15:16:14.409988 1965830144 net.cpp:217] convl needs backward computation. 

10404 15:16:14.409994 1965830144 net.cpp:219] mnist does not need backward computation. 
I0404 15:16:14.410023 1965830144 net.cpp:261] This network produces output loss 

// 盖 楼 完毕 

T0404 15:16:14.410037 1965830144 net.cpp:274] Network initialization done. 

// 还 需 创 建 测试 网 络 ， 再 盖 一 次 楼 

I0404 15:16:14.410277 1965830144 solver.cpp:181] Creating test net (#0) specified by net 
file: examples/mnist/lenet train test.prototxt 


I0404 15:16:14.410307 1965830144 net.cpp:313] The NetState phase (1) differed from the 
phase (0) specified by a rule in layer mnist 


T0404 15:16:14.410322 1965830144 net.cpp:49] Initializing net from parameters: 
// 略 ， 类 似 于 第 一 座 屡 情况 
// 只 是 地 基 mnist 改 了 一 下 Imdb 源 和 输出 尺寸 ， 顶 楼 加 了 个 accuracy 阁楼 
name: "LeNet" 
state 1 
phase: TEST 
} 
layer { 
name: "mnist" 
type: "Data" 
top: "data" 
top: "label" 
include { 
phase: TEST 
) 
transform param { 
scale: 0.00390625 
} 
data param { 
source: "examples/mnist/mnist test lmdb" 
batch size: 100 
backend: LMDB 


} 
/7/…… 中 间 重 复 ， 不 表 
layer { 

name: "accuracy" 


type: "Accuracy" 
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bottom: "ip2" 
bottom: "label" 
top: "accuracy" 
include [ 
phase: TEST 
! 
} 
layer { 
name: "loss" 
type: "SoftmaxWithLoss" 
bottom: "ip2" 
bottom: "label" 
top: "loss" 


} 

// 具体 盖 楼 过 程 与 训练 网 络 类 似 

I0404 15:16:14.410482 1965830144 
I0404 15:16:14.410609 1965830144 
T0404 15:16:14.410631 1965830144 
10404 15:16:14.410643 1965830144 
10404 15:16:14.413457 1601536 db lmdb.cpp:38] Opened lmdb examples/mnist/mnist test lmdb 
10404 15:16:14.414069 1965830144 


layer factory.hpp:77] Creating layer mnist 
net.cpp:91] Creating Layer mnist 
net.cpp:399] mnist -> data 

net.cpp:399] mnist -» label 


data layer.cpp:41] output data size: 100,1,28,28 


I0404 15:16 
10404 15:16 
10404 15:16 


:14.415026 
:14.415066 
:14.415151 


1965830144 
1965830144 
1965830144 


net.cpp:141] 


net.cpp:148] 


net.cpp:148] 


Setting up mnist 
Top shape: 
100 


Top shape: (100) 


100 1 28 28 (78400) 


10404 15:16:14.415164 1965830144 314000 

10404 15:16:14.415179 1965830144 layer factory.hpp:77] Creating layer label mnist 1 split 
10404 15:16:14.415208 1965830144 net.cpp:91] Creating Layer label mnist 1 split 

I0404 15:16:14.415218 
10404 15:16:14.415237 
split 0 

10404 15:16:14.415253 
split 1 

I0404 15:16:14.415269 
I0404 15:16:14.415277 
I0404 15:16:14.415287 
I0404 15:16:14.415294 
I0404 15:16:14.415302 
I0404 15:16:14.415356 


net.cpp:156] Memory required for data: 


1965830144 net.cpp:425] label mnist 1 split <- label 
1965830144 net.cpp:399] label mnist 1 split -> label mnist 1 - 


1965830144 net.cpp:399] label mnist 1 split -> label mnist 1 _ 
net.cpp:141] Setting up label mnist 1 split 
100 (100) 


100 (100) 


1965830144 
1965830144 
1965830144 
1965830144 
1965830144 
1965830144 


net.cpp:148] Top shape: 
net.cpp:148] Top shape: 
net.cpp:156] Memory required for data: 314800 
layer factory.hpp:77] Creating layer convl 


net.cpp:91] Creating Layer convl 


10404 15:16 


I0404 15:16: 


:14.415380 
14.415393 


1965830144 
1965830144 


net.cpp:425] 
net.cpp:399] 


convl <- data 


convl -> convl 
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10404 
10404 
10404 
10404 
10404 
10404 
10404 
10404 
10404 
10404 
10404 
10404 
10404 
10404 
10404 
10404 
10404 
10404 
10404 
10404 
10404 
10404 
10404 
10404 
104C4 
10404 
10404 
10404 
10404 
10404 
10404 
10404 
10404 
10404 
10404 
10404 
10404 
10404 
10404 


深度 学 习 : 21 天 实战 Caffe 


15:16:14.415449 
15:16:14.415459 
15:16:14.415472 
15:16:14.415518 
15:16:14.415539 
15:16:14.415549 
15:16:14.415560 
15:16:14.415583 
15:16:14.415592 
15:16:14.415603 
15:16:14.415611 
15:16:14.415627 
15:16:14.415637 
15:16:14.415647 
15:16:14.416070 
15:16:14.416085 
15:16:14.416095 
15:16:14.416115 
15:16:14.416127 
15:16:14.416136 
15:16:14.416193 
15:16:14.416224 
15:16:14.416232 
15:16:14.416242 
15:16:14.416250 
15:16:14.416262 
15:16:14.416270 
15:16:14.416285 
15:16:14.421391 
15:16:14.421423 
15:16:14.421432 
15:16:14.421445 
15:16:14.421458 
15:16:14.421465 
15:16:14.421478 
15:16:14.421489 
15:16:14.421494 
15:16:14.421500 
15:16:14.421506 


1965830144 
1965830144 
1965830144 
1965830144 
1965830144 
1965830144 
1965830144 
1965830144 
1965830144 
1965830144 
1965830144 
1965830144 
1965830144 
1965830144 
1965830144 
1965830144 
1965830144 
1965830144 
1965830144 
1965830144 
1965830144 
1965830144 
1965830144 
1965830144 
1965830144 
1965830144 
1965830144 
1965830144 
1965830144 
1965830144 
1965830144 
1965830144 
1965830144 
1965830144 
1965830144 
1965830144 
1965830144 
1965830144 
1965830144 





net.cpp:141] Setting up convl 

net.cpp:148] Top shape: 100 20 24 24 (1152000) 
net.cpp:156] Memory required for data: 4922800 
layer factory.hpp:77] Creating layer pooll 
net.cpp:91] Creating Layer pooll 

net.cpp:425] pooll <- convi 

net.cpp:399] pooll => pooll 

net.cpp:141] Setting up pooll 

net.cpp:148] Top shape: 100 20 12 12 (288000) 


net.cpp:156] Memory required for data: 6074800 


layer factory.hpp:77] Creating layer conv2 
net.cpp:91] Creating Layer conv2 

net.cpp:425] conv2 «- pooll 

net.cpp:399] conv2 -> conv2 

net.cpp:141] Setting up conv2 

net.cpp:148] Top shape: 100 50 8 8 (320000) 
net.cpp:156] Memory required for data: 7354800 
layer factory.hpp:77] Creating layer pool2 
net.cpp:91] Creating Layer pool2 

net.cpp:425] pool2 «- conv2 

net.cpp:399] pool2 -> pool2 

net.cpp:141] Setting up pool2 

net.cpp:148] Top shape: 100 50 4 4 (80000) 
net.cpp:156] Memory required for data: 7674800 
layer factory.hpp:77] Creating layer ipl 
net.cpp:91] Creating Layer ipl 

net.cpp:425] ipl <- pool2 

net.cpp:399] ipl -> ipl 

net.cpp:141] Setting up -ipl 

net.cpp:148] Top shape: 100 500 (50000) 
net.cpp:156] Memory required for data: 7874800 
layer factory.hpp:77] Creating layer relul 
net.cpp:91] Creating Layer relul 

net.cpp:425] relul «- ipl 

net.cpp:386] relul -» ipl (in-place) 
net.cpp:141] Setting up relul 

net.cpp:148] Top shape: 100 500 (50000) 
net.cpp:156] Memory required for data: 8074800 
layer factory.hpp:77] Creating layer ip2 


ww ai bbt. com [1 H1 B. D] D] UI 


; 第 6 天 运行 手写 体 数字 识别 例 程 





1965830144 
1965830144 
1965830144 
1965830144 
965830144 
965830144 


net.cpp:91] 

net.cpp:425] 
net.cpp:399] 
net.cpp:141] 
net.cpp:148] 
net.cpp:156] 


Creating Layer ip2 

ip <= ipl 

ip2 -> ip2 

Setting up ip2 

Top shape: 100 10 (1000) 

Memory required for data: 8078800 


// 注意 , ip2 ip2 0 split 在 网 络 描述 中 没有 显 式 给 出 ， 是 caffe 解析 后 自动 加 上 的 














965830144 net.cpp:91] Creating Layer ip2 ip2 0 split 
ip2_0_split 接受 一 个 输入 ip2 
ip2 0 split 0 和 ip2 ip2 0 split 1, 是 复制 关系 








0404 15:16:14.421516 
10404 15:16:14.421522 
[0404 15:16:14.421530 
[0404 15:16:14.421604 
0404 15:16:14.421612 
10404 15:16:14.421617 
10404 15:16:14.421625 
10404 15:16:14.421635 
fj ip: 
// 产生 两 个 输出 ip2 
10404 15:16:14.421641 
10404 15:16:14.421648 
10404 15:16:14.421658 
10404 15:16:14.421666 
10404 15:16:14.421672 
10404 15:16:14.421679 
10404 15:16:14.421684 
// ET KRH A: 




















一 个 大 西瓜 ， 平 均 切 两 块 ， 一 块 儿 给 你 ， 
// ip2 ip2 0 split 0 给 





1965830144 
1965830144 
1965830144 
1965830144 
965830144 
965830144 
1965830144 








net.cpp:425 
net.cpp:399 
net.cpp:399 
net.cpp:141] 
net.cpp:148 
net.cpp:148 





net.cpp:156 


T accuracy 层 


ip2 ip2 0 split «- ip2 


ip2 ip2 0 split -> ip2 ip2 0 split 0 
ip2 ip2 0 split -» ip2 ip2 0 split 1 


Setting up ip2 ip2 0 split 

Top shape: 100 10 (1000) 

Top shape: 100 10 (1000) 

Memory required for data: 8086800 
一 抉 儿 给 他 …… 


layer factory.hpp:77] Creating layer accuracy 





Creating Layer accuracy 
accuracy <- ip2 ip2 0 split 0 


accuracy <- label mnist 1 split 0 





accuracy -> accuracy 


Setting up accuracy 


Top shape: (1) 
Memory required for data: 8086804 


layer factory.hpp:77] Creating layer loss 


Creating Layer loss- 
loss «- ip2 ip2 0 split 1 
loss «- label mnist 1 split 1 


loss -> loss 


layer factory.hpp:77] Creating layer loss 


I0404 15:16:14.421689 1965830144 
I0404 15:16:14.421712 1965830144 net.cpp:91] 
I0404 15:16:14.421732 1965830144 net.cpp:425 
I0404 15:16:14.421739 1965830144 net.cpp:425 
I0404 15:16:14.421751 1965830144 net.cpp:399 
I0404 15:16:14.421761 1965830144 net.cpp:141 
// accuracy 层 输出 尺寸 为 1， 即 分 类 准确 率 
I0404 15:16:14.421767 1965830144 net.cpp:148 
T0404 15:16:14.421773 1965830144 net.cpp:156 
// ip2 ip2 0 split 1 #47 loss 层 
10404 15:16:14.421778 1965830144 
0404 15:16:14.421787 1965830144 net.cpp:91] 
0404 15:16:14.421792 1965830144 net.cpp:425 
10404 15:16:14.421798 1965830144 net.cpp:425 
10404 15:16:14.421805 1965830144 net.cpp:399 
0404 15:16:14.421814 1965830144 
T0404 15:16:14.421830 1965830144 net.cpp:141 
0404 15:16:14.421838 1965830144 net.cpp:148] 
I0404 15:16:14.421844 1965830144 net.cpp:151 





Setting up loss 
Top shape: (1) 
with loss weight 1 
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1965830144 layer factory.hpp:77] Creating layer ip2 ip2 0 split 


74 REFI: 21 天 实战 Caffe 





10404 15:16:14.421851 1965830144 net.cpp:156] Memory required for data: 8086808 

I0404 15:16:14.421857 1965830144 net.cpp:217] loss needs backward computation. 

I0404 15:16:14.421862 1965830144 net.cpp:219] accuracy does not need backward computation. 
I0404 15:16:14.421869 1965830144 net.cpp:217] ip2 ip2 0 split needs backward computation. 
I0404 15:16:14.421875 1965830144 net.cpp:217] ip2 needs backward computation. 

I0404 15:16:14.421880 1965830144 net.cpp:217] relul needs backward computation. 

10404 15:16:14.421885 1965830144 net.cpp:217] ipl needs backward computation. 

10404 15:16:14.421890 1965830144 net.cpp:217] pool2 needs backward computation. 

10404 15:16:14.421898 1965830144 net.cpp:217] conv2 needs backward computation. 

I0404 15:16:14.421905 1965830144-net.cpp:217] poo11 needs backward computation. 

I0404 15:16:14.421911 1965830144 net.cpp:217] convi needs backward computation. 


I0404 15:16:14.421916 1965830144 net.cpp:219] label mnist 1 split does not need backward 
computation. 


10404 15:16:14.421923 1965830144 net.cpp:219] mnist does not need backward computation. 
I0404 15:16:14.421928 1965830144 net.cpp:261] This network produces output accuracy 
I0404 15:16:14.421934 1965830144 net.cpp:261] This network produces output loss 

// 第 二 座 楼 盖 好 了 

I0404 15:16:14.421944 1965830144 net.cpp:274] Network initialization done. 

// 装修 方案 确定 了 

10404 15:16:14.422015 1965830144 solver.cpp:60] Solver scaffolding done. 

// 开始 装修 

I0404 15:16:14.422062 1965830144 caffe.cpp:219] Starting Optimization 

I0404 15:16:14.422070 1965830144 solver.cpp:279] Solving LeNet 

I0404 15:16:14.422075 1965830144 solver.cpp:280] Learning Rate Policy: inv 

// 先 测试 一 次 ， 得 到 初始 分 类 准确 率 和 损失 

I0404 15:16:14.423041 1965830144 solver.cpp:337] Iteration 0, Testing net (#0) 





I0404 15:16:17.914536 1965830144 solver.cpp:404] Test net output #0: accuracy = 0.1014 


10404 15:16:17.914599 1965830144 solver.cpp: 404] Test net output #1: loss = 2.33303 
(* 1 = 2.33303 loss) 


// 想 都 不 用 想 ， 现 在 分 类 效果 肯定 很 差 ， 准 确 率 上 只 有 0.1 左右 ， 和 随机 猜测 准确 率 差 不 多 ……* 

// 损失 值 约 为 2.3， 等 你 读 过 第 13 天 内 容 就 知道 这 个 数 的 来 历 了 …… 

10404 15:16:17.969997 1965830144 solver.cpp:228] Iteration 0, loss - 2.32217 
// 训练 网 络 在 第 0 次 从 代 的 分 类 性 能 ， 一 样 很 差 

// 注意 ， 训 练 网 络 没 有 accuracy 输出， 只 有 loss 输出 


I0404 15:16:17.970052 1965830144 solver.cpp:244] Train net output #0: loss = 2.32217 
(* 1 = 2.32217 loss) 


10404 15:16:17.970088 1965830144 sgd solver.cpp:106] Iteration 0, lr = 0.01 

I0404 15:16:22.859643 1965830144 solver.cpp:228] Iteration 100, loss = 0.238868 

// ikf&100 次 的 情況 , loss 显著 下 降 

10404 15:16:22.859697 1965830144 solver.cpp:244] Train net output $0: loss = 0.238868 
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(* 1 = 0.238868 loss) 

10404 15:16:22.859709 1965830144 sgd solver.cpp:106] Iteration 100, lr = 0.00992565 

T0404 15:16:27.847350 1965830144 solver.cpp:228] Iteration 200, loss = 0.122524 
5 
0 
5 


10404 15:16:27.847398 1965830144 solver.cpp:244] Train net output #0: loss = 0.122524 
(* 1 = 0.122524 loss) 


:16:27.847410 1965830144 sgd solver.cpp:106] Iteration 200, lr = 000985258 
:16:32.812690 1965830144 solver.cpp:228] Iteration 300, loss = 0.196796 


5 
5:16:32.812731 1965830144 solver.cpp:244] Train net output #0: loss = 0.196796 
* 1 = 0.196796 loss) 
5 
3 


Il 


:16:32.812743 1965830144 sgd solver.cpp:106] Iteration 300, Lr 0.00978075 
:16:37.813115 1965830144 solver.cpp:228] Iteration 400, loss - 0.0882091 


0404 15:16:37.813197 1965830144 'solver.cpp:244] Train net output #0: loss = 0.0882091 
(* 1 = 0.0882091 loss) 


0404 15:16:37.813212 1965830144 sgd solver.cpp:106] Iteration 400, lr = 0.00971013 
fif ome 过 了 一 段 时 间 
// 每 迭代 500 次 ， 做 一 次 测试 〈 由 solver.prototxt 中 超 参数 test interval: 500 设 定 ) 

10404 15:16:42.784708 1965830144 solver.cpp:337] Iteration 500, Testing net (#0) 
































I0404 15:16:46.238106 1965830144 solver.cpp:404] Test net output #0: accuracy = 0.9722 
// 不 错 哦 ， 准 确 率 很 快 就 达到 97% T 
I0404 15:16:46.238154 1965830144 solver.cpp: 204] Test net output #1: loss = 0.0920536 


(* 1 = 0.0920536 loss) 
// 继续 训练 …… 中 间 输 出 重复 ， 格 
10404 15:20:56.985736 1965830144 solver.cpp:228] Iteration 4900, loss = 0.00676112 


I0404 15:20:56.985781 1965830144 solver.cpp:244] Train net output #0: loss = 0.00676123 
(* 1 = 0.00676123 loss) 


10404 15:20:56.985795 1965830144 sgd_solver.cpp:106] Iteration 4900, lr = 0.00741498 
// 每 迭代 5000 次 ， 打印 一 次 快照 (由 solver. prototxt 中 超 参 数 snapshot: 5000 WE) 

10404 15:21:02.056707 1965830144 solver.cpp:454] Snapshotting to binary proto file 
examples/mnist/lenet iter 5000.caffemodel 


I0404 15:21:02.073658 1965830144 sgd solver.cpp:273] Snapshotting solver state to binary 
proto file examples/mnist/lenet iter 5000.solverstate 


10404 15:21:02.083560 1965830144 solver.cpp:337] Iteration 5000, Testing net (#0) 
10404 15:21:05.723037 1965830144 solver.cpp:404] Test net output #0: accuracy = 0.9888 


10404 15:21:05.723078 1965830144 solver.cpp:404] Test net output #1: loss = 0.0349629 
(* 1 = 0.0349629 loss) 


// 继续 训练 中 间 内 容重 复 ， 略 
// 最 后 一 次 打印 快照 


I0404 15:25:48.310060 1965830144 solver.cpp:454] Snapshotting to binary proto file 
examples/mnist/lenet iter 10000.caffemodel 


10404 15:25:48.324256 1965830144 sgd solver.cpp:273] Snapshotting solver state to binary 
proto file examples/mnist/lenet iter 10000.solverstate 


I0404 15:25:48.358948 1965830144 solver.cpp:317] Iteration 10000, loss = 0.0034473 
10404 15:25:48.358986 1965830144 solver.cpp:337] Iteration 10000, Testing net (#0) 


T0404 15:25:51.754547 1965830144 So erp cpp: Test net output #0: accuracy = 0.9904 
ai bbt. com HHHHHHH 








76 ”深度 学 习 : 21 天 实战 Caffe 


// 最 终 分 类 准确 率 为 99% 
T0404 15:25:51.754601 1965830144 solver.cpp:404] Test net output #1: loss = 0.0321366 
(* 1 = 0.0321366 loss) 

// 最 终 loss {HN 0.0321366 

T0404 15:25:51.754614 1965830144 solver.cpp:322] Optimization Done. 

I0404 15:25:51.754623 1965830144 caffe.cpp:222] Optimization Done. 

// 装修 结束 ， 可 以 交付 了 


从 上 数 输出 结果 可 以 看 到 最 终 训练 的 模型 权 值 保存 在 examples/mnist/lenet iter 10000. 
caffemodel 文件 中 ， 训 练 状态 保存 在 examples/mnist/ lenet iter 10000.solverstate 文件 中 。 这 两 个 
文件 都 ProtoBuffer 二 进 制 格式 文件 (binary proto file). 























6.2.4 用 训练 好 的 模型 对 数据 进行 预测 


l 利用 训练 好 的 LeNet-5 模型 权 值 文件 Cexamples/mnist/lenet iter 10000.caffemodel) 可 以 对 
测试 数据 集 〈 或 外 部 测试 集 ) 进行 预测 。 运 行 如 下 命令 : 


$ ./build/tools/caffe.bin test \ 





-model examples/mnist/lenet train test.prototxt \ 
-weights examples/mnist/lenet iter 10000.caffemodel \ 


-iterations 100 


命令 行 解释 : 





O ./buildtools/caffe.bin test， 表示 只 做 预测 (前 向 传播 计算 )， 不 进行 参数 更 新 (后 问 传 播 计算 )。 





2 -model examples/mnistlenet train testprototxt, 指定 模型 描 述 文 本 文件 。 
Q -weights examples/mnist/lenet iter 10000.caffemodel， 指 定 模型 预先 训练 好 的 权 值 文件 。 


O -iterations 100， 指 定 测试 达 代 次 数 。 参 与 测试 的 样 例 数 日 为 Citerations * batch size), 
batch size 在 model prototxt 中 设 定 ， 为 100 时 刚好 覆盖 全 部 10000 个 测试 样本 。 


读者 可 以 运行 上 述 命令 ,分析 输出 日 志 ， 与 训练 阶段 输出 做 对 比 。 
6.2.5 Windows 下 训练 模型 
Windows 用 户 你 们 还 好 吗 ? 让 我 看 到 你 们 的 双手 ! 


在 Windows 下 运行 Caffe 比较 trick， 我 们 可 以 从 Linux 下 配置 好 的 Caffe 环境 中 直 z jl 
LMDB 格式 数据 Cmnist train Imdb 和 mnist test Imdb), BRA H UMH Er Ez BECHER 
放 入 CAUsers Administrator Desktop caffe-master \examples\mnist\ 下 。 
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打开 Windows 命令 行 , cd 到 C:\Users\Administrator\Desktop\caffe-master\, 运行 命令 如 图 6-3 
所 示 。 





图 6-3 Windows Caffe 命令 行 参数 
运行 效果 如 图 6-4 所 示 。 


m ERE. Sh abl wal s. Me exe - nuis Anecs exe r.[ ご 1 日 | | 





图 6-4 Windows Caffe 运 行 过 程 


运行 结束 时 如 图 6-5 所 示 。 


us EEA: C:\Windows\system32\cmd.exe =la] x 





图 6-5 Windows Caffe 运 行 结束 
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生成 的 快照 文件 和 保存 的 权 值 文件 如 图 6-6 所 示 。 

















R Ra 86 
T | we caffe-master » examples + mnist 7 E | 
em B sexum å . xm A 
E |_ lenet consolidated solver.prototxt 2016/3/27 17:46 PROTOTX! xt EKE 
| lenet iter_5000.caffemodel 2016/3/27 1937 CAFFEMODEL XL. 1,685 KB 
|_ lenet iter 5000.solverstate 2016/3/27 19937. SOLVERSTATE .- 1,685 KB 
FERRUM |. lenetiter 10000.caffemodel . 2016/3/7719.37  CAFFEMODEL XL. — 188SKB! | 
ー lenet iter 10000.solverstate. 2016/3/2719:37 — SOLVERSTATE.. 1,685 KB | 
B |j lenet multistep solver.prototxt 2016/3/27 17:46 PROTOTXT Tit ) 48 
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Hy OL, Caffe 在 Windows 环境 下 运行 命令 、 过 程 和 结果 与 Linux 下 相同 。 
63 回顾 


通过 今天 内 容 我 们 可 以 初步 了 解 到 一 个 完整 深度 学 习 系 统 最 核心 的 两 个 方面 : 数据 和 模型 。 
数据 是 带 标签 的 图 片 集 ， 分 训练 集 和 测试 集 ， 模型 是 描述 CNN 结构 的 有 向 无 环 图 (DAG), 表 
示 对 原始 数据 的 处 理 方式 。 


Caffe 并 不 是 直接 处 理 原始 数据 的 , 而 是 由 预 处 理 程序 将 原始 数据 变换 存储 为 LMDB 格式 ， 
这 种 方式 可 保持 较 高 的 IO 效率 ， 加 快 训练 时 的 数据 加 载 速 度 。 模 型 通常 用 ProtoBuffer 文本 格 
式 表 述 ， 训 练 结 果 保存 为 ProtoBuffer 二 进 制 文件 或 HDFS 格式 文件 。 深 度 学 习 的 过 程 其 实 就 是 
利用 训练 数据 对 模型 进行 训练 , 将 数据 中 蕴藏 的 大 量 信息 通过 机 器 学 习 算 法 不 断 收集 到 模型 中 ， 
利用 训练 好 的 模型 对 现实 世界 中 的 相似 数据 进行 特定 处 理 《〈《 如 分 类 、 识 别 、 检 测 、 定 位 )。 


我 们 回顾 一 下 今天 使 用 的 build/tools/caffe.bin 用 法 。 


$ ./build/tools/caffe.bin 
caffe.bin: command line brew 


usage: caffe <command><args> 


commands: 


train 训练 或 微调 一 个 模型 
test 对 一 个 模型 打分 
device query 显示 GPU 诊断 信息 
time 评估 模型 执行 时 间 


Flags from tools/caffe.cpp: 
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-gpu 《可 选 参数 ， 给 定时 运行 作 GEH BOX. '-gpu allt 则 表示 运行 在 所 有 可 用 ego 设备 二， 些 时 真正 训练 
批量 大 小 是 N * B. N 为 指定 的 E56 设备 数目 ) 

-iterations (JM NEXU. Mid 50) 

-model 《指定 模型 定义 文本 文件 各 ，* .prototxt) 


-sighup effect ( 当 收 到 srGHUP fa HH EX AE. "ICI: snapshot. stop 或 none, MUA 
snapshot, WRI) 


-sigint effect ( 当 收 到 SIGINT 信号 时 要 采取 的 动作 ， 可 选项 同 上， 默认 为 stop) 
-snapshot (TKS IN ERE Edi, *.solverstate) 

-solver (指定 求解 器 交 本 文件 条，* ,prototxt) 

-weights (JEREMI JY oT UH. *.catfemodei. [snapshot Iii Hsu 


今天 使 用 了 该 工具 的 train 和 test 命令 。 后 面 在 第 15 天 内 容 中 我 们 会 用 到 另外 蚌 个 命令 。 


我 们 学 习 了 Caffe 提供 的 简单 例 程 ， 吕 的 是 让 初学 者 轻松 上 手 ， 其 中 最 简单 的 两 个 例子 是 
examples/mnist/fll examples/cifar10/， 前 者 用 于 手写 数字 识别 ， 后 者 用 于 小 图 片 分 类 ,。 更 复杂 的 例子 
位 于 models/bvle reference/caffenet, models/bvle googlenet/, models/ bvle reference renn ilsvrc13/, 


现在 可 能 看 似 高 深 ， 其 实 与 简单 模型 在 使 用 上 并 无 二 入， 只 是 更 换 了 不 同 数据 集 、 不 同 横 型 而 


1. 写 


. 写 一 个 程序 , 将 你 的 手写 体 数 字 图 片 ( 记 得 缩放 到 28x280 送 入 本 节 训 练 得 到 的 LeNet 模 
型 中 做 预测 ， 评 估 数 字 识 别 效果 。 


2. 写 一 个 程序 , 将 所 有 LeNet-5 识别 出 错 的 样本 导出 , 观察 并 思考 为 什么 机 器 会 识别 出 错 。 


3. 按照 本 节 步 骤 ， 试 着 运行 Caffe CIFARIO 例 程 (examples/cifar10), 分 析 輸 出 日 志 。 


6.5 参考 資料 


[1] http://yann.lecun.com/exdb/mnist/ 
[2] http://yann.lecun.com/exdb/publis/pdf/lecun-01a.pdf 


[3] AERE (http://pan.baidu.comys/1sks4XFy, Helii: idi7 ) 
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上 篇 。， 初 见 的 这 儿 天 我 们 主要 熟悉 了 深度 学 习 技 术 和 开源 框架 Caffe 的 使 用 ， 掌 握 了 
MNIST 数据 集 的 细节 和 LeNet-5 简单 深度 学 习 模 型 的 使 用 方法 。 从 这 时 开始 你 可 能 已 经 按 拱 不 
住 想 更 多 地 了 解 Caffe 的 实现 细节 ， 和 希望 与 它 有 更 多 的 “共同 语言 ”了 哈 入 爱河 的 感觉 可 能 就 是 

.这样 吧 ~ 
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Pia 


WEGE RIER, 


f XA RUE, 


FAN Y 
MAAN 


BARDHE A 
心 有 灵 翌 一 点 通 


HRS Ay ARTUR, ar HL tr er 
哮 余 听 鼓 应 官 去 ， 走 马兰 台 类 转 莲 。 


一 李商隐 《无 题 》 


经 过 上 篇 初 见 Caffe， 也 许 你 已 经 对 其 一 见 倾心 ， 希望 在 本 篇 深入 了 解 Caffe 的 每 个 模块 如 
何 实现 。 阅读 源 码 是 一 项 需要 耐心 和 谢 力 的 工作 ， 如 果 不 得 要 领 ， 难 以 达到 效果 。Caffe 代码 虽 
然 更 新 很 快 ， 但 主要 框架 变化 很 小 ， 按 照 本 篇 的 脉络 结合 适当 的 阅读 工具 可 以 轻松 地 学 会 在 源 
码 中 邀 游 ， 与 Caffe“ 心 有 灵犀 ”。 
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Caffe 是 用 CHS WR EAS NEAR, DORM SHUR, ARK. BAS, 所 以 也 可 以 用 来 
` 学 习 C++ 语言 特性 。Caffe 类 数目 众多 ， 但 通过 面向 对 象 编程 COOP) 方式 组 织 得 很 好 ， 所 以 只 
要 遵循 类 继承 规则 顺 蔷 摸 瓜 ， 就 不 会 看 得 云 里 雾 里 ， 迷 失 丛 林 。 


7.3 Caffe 目录 结构 


在 Caffe 的 根 目录 下 执行 tree 命令 查看 Caffe 目录 结构 ; 


$ tree -d 
ヒト ーー build -> .build release // 编译 结果 存放 处 ， 子 目录 结构 与 主 目录 类 似 
トーー emake // 使用 CMake 编译 时 会 用 到 ， 不 关注 
| トーー External 
ーーー Modules 
L—— Templates 


トーー cifarl0 // 存放 CIFAR10 小 图 片 原始 数据 
トーー iisvrcl2 // 存放 ImageNet Meta 数据 ， 原 始 数据 需要 另外 下 载 
| I mist // 存放 MNIST 手写 体 数字 图 像 数据 
トーー distribute // 编译 后 生成 发 布 包 的 位 置 ， 用 于 迁移 
| 一 一 bin 
| トーー 1ib 
トーー docker / 
| トーー standalone 
| | トーー cpu 


| | Le 


| 
| 
トーー data // 用 于 存放 原始 数据 及 数据 获取 脚本 
| 
| 


a 


同样 是 为 了 便于 迁移 ， 使 用 了 Docker 工具 


gpu 
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| レーー templates 
トーー docs // doxygen 工程 文件 放 在 这 里 ， 可 生成 Caffe ref man.pdF 
トー 一 layouts 
トーー images 
トーー stylesheets 
L—— tutorial 


L—— fig 
トー ci far10 // CIFAR10 例 程 
トーー cpp classification // 图 像 分 类 例 程 
トーー feature extraction ` // 特征 提取 例 程 
トーー finetune flickr style // finetune 例 程 
トト ーー finetune pascal detection // finetune 例 程 
トーー hdf5 classification // 使用 DF5 数据 源 的 分 类 例 程 
上 一 imagenet // ImageNet 例 程 , 使用 pvlc_reference_caffenet 模型 
トーー images 
トーー mnist // MNIST 手写 体 数字 识别 例 程 
| = mnist test Imdb 


| 一 一 一 mnist train lmdb 
トーー net surgery 
トーー pycaffe 
| L—— layers 
トーー siamese 
L—— web demo  // 一 个 Web Server + 分 类 例 程 
L—— templates 
トーー include // Caffe 头 文件 集中 存放 于 这 个 目录 
L—— caffe 
トーー layers 
上 一 test 


レー util 


| 
| 
| 
| 
トーー matlab // 适用 于 Matlab 人 wrapper, 具体 可以 参考 RCNN 源码 
| 
| 
| 
| 
| 
| 


| 
| 
| 
| 
| 
トーー examples // 存 放 Caffe 简单 例 程 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 


トーー +caffe 
| トーー +test 
| | 一 一 imagenet 


| レー 一 private 


L— demo 


L—— hdf5creation 
トーー models // 存放 示例 模型 
| トーー bvle_alexnet // 经 典 的 AlexNet 
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| 上 一 bvlc googlenet // GoogLeNet 

| トーー bv1c reference caffenet // Caffe 模拟 的 AlexNet 

| トーー bvle_reference rcnn ilsvrcl3 // RCNN 模型 , 参见 参考 资料 [1] 
| トー 一 finetune flickr style 

トーー python // WF Python Wrapper 

| L—— caffe 

| 上 一 imagenet 

| トーー proto 

| 


L—— test 


トーー scripts // 存放 脚本 


テー travis 





| 

トー sre // Caffe 源码 

| トーー caffe 

| | トーー layers // 各 个 层 的 具体 实现 
| | トーー proto // proto 描述 文件 ， 学 习 数 据 结构 先 从 这 里 开始 
| | トーー solyers 

| | 上 == test 

| | | に test data 

| | L—— util 

| L—— gtest 

L—— tools // 常用 工具 源码 

レーーー extra 


77 directories 


我 们 需要 关注 三 个 子 目 录 : include/、src/ 和 tools/。 本 篇 将 要 分 析 的 所 有 代码 都 出 自 这 三 个 
子 目录 。 


7.2 ”如 何 有 效 阅 读 Caffe 源码 


如 何 有 效 阅读 Caffe 源码 ?这 是 多 数 初学 者 经 常 问 的 一 个 问题 。 


Caffe 源码 阅读 路 线 最 好 是 从 src/caffe/proto/caffe.proto 开始 ,了解 基 本 数据 结构 内 存 对 象 和 
磁盘 文件 的 一 一 映射 关系 (如 何 从 磁盘 文件 加 载 一 个 数据 结构 到 内 存 对 象 ， 以 及 如 何 将 内 存 对 
象 保存 为 磁盘 文件 ， 这 中 间 的 过 程 其 实 都 是 由 ProtoBuffer 工具 自动 完成 的 )。 

第 二 步 是 看 头 文件 。 不 用 和 忽 于 去 看 cpp 文件 ， 先 通过 头 文件 类 声明 理解 整个 框架 ， 发 挥 想 
象 力 去 “ 猜 ” 有 具 体 实 现 ， 从 基 类 问 派 生 类 顺藤摸瓜 看 下 去 ， 很 容易 掌握 这 些 类 的 使 用 方法 。 
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第 三 步 就 是 有 针对 性 地 去 看 epp 和 cu 文件 了 。 一 般 而 言 ，Caffe 框架 并 不 需要 大 改 ， 按 需 
求 派生 新 的 类 即 可 。 例 如 ， 你 使 用 了 新 的 卷 积 算法 ， 震 要 上 自己 实现 相应 购 ConvolutionLayer， 则 
只 需 从 已 有 的 ConvolutionLayer 派生 一 个 新 类 MyConvolutionLayer， 然 后 将 前 各 传播 计算 、 反 
向 传播 计算 按 自 己 的 算法 实现 即 可 。 这 一 阶段 关注 点 在 算法 实现 上 ， 相 应 的 测试 和 正确 性 验证 
手段 是 必需 的 。 











第 四 步 就 很 自由 了 ， 可 以 编写 各 类 工具 ， 集 成 到 Caffe 内 部 。 在 tools/ 下 面 己 有 很 多 实用 了 
具 (如 训练 模型 、 测 试 模型 、 特 征 提 取 、 转 换 数据 格式 等 )， 可 以 根据 南 要 修改 。 另外 ， 也 可 以 
学 习 用 Python 或 Matlab 包装 Caffe 的 方法 ， 便 于 调节 模型 训练 效果 。 

TIPS: Linux 使 用 技巧 之 阅读 代码 时 如 何 快速 追踪 某 个 关键 词 ? 

方法 一 : 打开 多 个 终端 ， 或 用 水 平 / 重 直 切 分 命令 ， 将 窗口 切 分 成 多 份 ， 将 cpp 文件 包含 的 

所 有 头 文件 都 打开 ， 利 用 vi 的 查找 命令 进行 追踪 。 这 种 方法 在 工程 较 简单 ， 头 文件 较 少 ， 或 考 
对 工程 比较 熟悉 ， 了 解 每 个 头 文件 的 内 容 时 比较 好 用 ; 而 在 工程 较 大 ， 包 含 头 文件 较 多 ， 以 及 
递归 层次 较 多 的 场合 下 就 不 实用 了 





方法 二 : 使 用 Linux grep TA- 例如， 在 src/caffe/layer factory.cpp 中 有 个 宏 调用 : 
REGISTER LAYER CREATOR(Pooling, GetPoolingLayer);， 看 到 这 行 时 可 能 会 比较 困惑 ， 这 个 
宏 到 底 干 了 什么 呢 ? 在 Caffe 根 目录 下 运行 以 下 命令 : 


$ grep -n -H -R "REGISTER LAYER CREATOR" * 

include/caffe/layer factory.hpp:34:*REGISTER LAYER CREATOR (MyAwesome,GetMyAwesomeLayer) 
include/caffe/layer factory.hpp:113:#define REGISTER LAYER CREATOR (type,creator)N 
include/caffe/layer factory.hpp:123:REGISTER LAYER CREATOR (type,Creator _##type##Layer) 


src/caffe/layer factory.cpp:41:REGISTER LAYER CREATOR (Convolution, 
GetConvolutionLayer); 


src/caffe/layer factory.cpp:71:REGISTER LAYER CREATOR(Pooling, GetPoolingLayer); 
src/caffe/layer factory.cpp:94:REGISTER LAYER CREATOR (ReLU, GetReLULayer); 
src/caffe/layer factory.cpp:ll17:REGISTER LAYER CREATOR (Sigmoid, GetSigmoidLayer); 
src/caffe/layer factory.cpp:140:REGISTER LAYER CREATOR(Softmax, GetSoftmaxLayer) ; 
src/caffe/layer factory.cpp:163:REGISTER LAYER CREATOR (TanH, GetTanHLayer); 











src/caffe/layer factory.cpp:179:REGISTER_ LAYER CREATOR (Python, GetPythonLayer); 


命令 行 参数 解释 : 
-n 一 显示 行 号 ， 便 于 定位 
-日 ”一 显示 文件 名 ， 便 于 定位 
-R ”一 递归 查找 每 个 子 目 录 ， 适 合 工 程 较 大 、 分 多 个 目录 存放 的 场景 
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使 用 方法 二 的 好 处 很 多 ， 首 先 非常 直观 地 显示 了 所 有 和 包含 这 个 宏 的 文件 名 和 行 号 ， 我 们 能 
通过 输出 仔细 玻 别 出 宏 定义 位 置 ， 另 外 ， 无 须 分 别 打 开 每 个 文件 ， 也 能 看 到 整个 工程 中 所 有 通 
过 该 宏 注册 的 层 生 成 器 ( 卷 积 层 , 下 采样 层 , 非 线性 层 Sigmoid、ReLU 和 TanH, 分 类 层 Softmax, 
以 及 Python 层 )， 打 开 include/caffe/layer factory.hpp, 3965] 113 行 可 以 看 到 该 宏 的 定义 : 
#define REGISTER LAYER CREATOR (type, creator) \ 


static LayerRegisterer<float> g creator f ##type(#type, creator<float>);\ 


static LayerRegisterer<double> g creator d ##type(#type, creator<double>) 


利用 这 种 方法 ， 可 以 很 容易 地 在 Caffe 源码 中 定位 下 一 节 将 要 讲述 的 内 容 。 


7.3 Caffe 支持 哪些 深度 学 习 特 性 


深度 学 习 一 直 处 于 不 断 发 展 的 状态 ，Caffe 也 在 不 断 地 适应 深度 学 习 的 发 展 。 我 们 先 看 一 
简化 的 深度 学 习 前 馈 卷 积 网 络 (CCNN) 模型 ， 如 图 7-1 所 示 。 





| 











图 7-1 CNN 模型 








在 上 面 的 CNN 模型 中 ， 输 入 层 为 二 维 图 像 数据 ， 前 面 儿 层 :都 是 卷 积 层 〈Convolutional 
Layer)， 用 于 提取 低 维 到 高 维特 征 ， 最 后 两 层 为 全 连接 层 ， 类 似 于 多 层 感知 器 (MLP)， 用 于 对 
前 面 提供 的 特征 进行 分 类 。 卷 积 层 和 全 连接 层 我 们 统称 为 权 值 屋 ， 因 为 这 两 种 层 都 具有 可 学 习 
参数 〈 权 值 )， 是 网 络 训练 的 对 象 。 我 们 首先 介绍 这 两 种 层 的 具体 实现 。 


























7.3.4 MEA 


卷 积 是 大 自然 中 最 常见 的 运算 ， 一 切 信号 观测 、 采 集 、 传 输 、 处 理 都 可 以 用 卷 积 过 程 实现 。 
例如 ， 你 拍照 时 手 拌 了 一 下 ， 导 致 照片 模糊 ， 实 际 上 等 价 于 手 没 抖 拍摄 的 正常 照片 与 一 个 表示 
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手持 的 卷 积 核 进行 卷 积 运算 得 到 的 结果 。 用 公式 表达 如 下 : 
Y(mn)= X (m,n) * H(m,n) 


40 +o 


= > > XG DH(m-in- j) 


{=—% /三 一 5 


= Y Y X(m -—i,n— DH (i J) 
i=—m j= ニー の % 
HP, Xon) aie ee, Hmmm FEGIZ. Yom) des SOBRE] GUY «an ERE IE 
某 种 方法 从 Y(m.nyfh vk th Hm,n)， 就 可 以 采取 措施 恢复 站 mv) 实现 相机 防 抖 功能 。 更 多 卷 积 理 
论 研究 见 参考 资料 [2]。 


卷 积 层 是 卷 积 神经 网 络 (CNN) 典型 层 ，CNN 名 称 就 是 由 该 层 冠 名 的 ， 可 见 其 重要 性 。 卷 
积 层 计 算 步 骤 与 上 面 公式 定义 的 二 维 卷 积 稍 有 差异 ， 首 先是 维度 升 至 三 维 、 四 维 卷 积 ， 与 二 维 
卷 积 相 比 增 加 了 多 个 “通道 ”(Cchannel)， 每 个 通道 仍然 按照 二 维 卷 积 方式 计算 ， 多 个 通道 与 多 
个 卷 积 核 分 别 进行 二 维 卷 积 ， 得 到 多 通道 输出 ， 需 要 “合并 ”为 一 个 通道 ， 其 次 是 卷 积 核 在 卷 
积 计 算 时 没有 “翻转 ”， 而 是 与 输入 图 片 做 滑动 窗口 “相关 ”计算 。 卷 积 和 相关 的 区 别 ， 请 读者 
翻阅 参考 资料 [3] 深 入 研究 。 用 公式 重新 表达 为 : 


Y'(m,n)- X* (m,n) * H" (m,n) 


KM Jot 
= Y X* mins fH" (ij) 
k=0 た 0 0 


这 里 假定 卷 积 层 有 工 个 输出 通道 和 天 个 输入 通道 ， 于 是 需要 有 LK 个 卷 积 核实 现 通道 数目 
的 转换 。 其 中 六 表示 第 k(0<k<K) 个 输入 通道 的 二 维特 征 图 ，Y 表示 第 /(0<7</) 个 输出 通 
道 的 三 维特 征 图 ， 所 表示 第 1 列 、 第 上 行 二 维 卷 积 核 。 假 定 卷 积 核 大 小 为 TJ ， 每 个 输出 通道 
的 特征 图 大 小 均 为 M:N ， 则 该 层 每 个 样本 做 一 次 前 向 传播 时 卷 积 层 计 算 量 为 ; 
Calculations(MAC) =/-/-M-N-K-L 


以 LeNet-5 第 二 个 卷 积 层 为 例 ， 我 们 找到 与 上 面 公 式 对 应 的 参数 。 首 先 从 
examples/mnist/lenet train val.prototxt 中 找到 卷 积 参数 描述 : 


convolution param { 
num output: 50// 对 应 公式 中 的 工 
kernel size: 5// 对 应 公式 中 的 工 和 了 
Stride: 1 


weight filler { 
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type: "xavier" 
} 
bias filler { 


type: "constant" 


剩 下 的 三 个 参数 K, M,N 从 哪里 找 呢 ? 答案 是 日 志文 件 。 


I0404 15:16:14.404001 1965830144 net.cpp:148] Top shape: 64 20 12 12 (184320) 
I0404 15:16:14.404019 1965830144 net.cpp:156] Memory required for data: 3887360 
10404 15:16:14.404036 1965830144 layer factory.hpp:77] Creating layer conv2 
I0404 15:16:14.404063 1965830144 net.cpp:91] Creating Layer conv2 

I0404 15:16:14.404078 1965830144 net.cpp:425] conv2 «- pooli 

10404 15:16:14.404098 1965830144 net.cpp:399] conv2 -» conv2 

I0404 15:16:14.404726 1965830144 net.cpp:141] Setting up conv2 

10404 15:16:14.404755 1965830144 net.cpp:148] Top shape: 64 50 8 8 (204800) 


通过 日 志文 件 中 conv2 这 一 层 构建 时 的 上 下 文 信息 可 以 获得 特征 图 尺寸 和 前 一 层 特 征 图 通 
道 数 信息 。 如 上 面 日 志 中 粗 体 字 部 分 显示 ， 对 应 的 值 为 
M-N-8 
K-20 
由 此 可 以 计算 出 LeNet-5 conv2 的 单 样本 前 向 传播 计算 量 为 : 
Calculations(MAC) = 5-5-8-8-50-20 
=1600 000MAC 
注意 实际 中 通常 一 次 送 入 一 批 样本 (batch)， 此 时 计算 量 应 再 乘 上 批量 尺寸 。 
通过 上 述 参 数 ， 还 可 以 计算 出 卷 积 层 的 学 习 参 数 数 量 ， 其 实 非 常 简单 ， 就 是 卷 积 核 数目 乘 
卷 积 核 尺寸 : 
Params =/-J-K-L 
=5-5-50-20 
= 25 000 
这 里 定义 计算 量 -参数 量 之 比 为 CPR (Calculations to Parameters Ratio): 


CPR = Calculations / Params = M-N = 64 
可 以 得 出 结论 : 卷 积 层 的 输出 特征 图 尺寸 越 大 ，CPR 值 越 大 ， 参 数 重 复 利用 率 越 高 。 若 输 
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入 一 批 数据 (8B 个 样本 )， 则 CPR 值 可 再 提高 fü 


Caffe 中 卷 积 层 的 其 体 实现 ， 可 以 用 上 节 介 绍 的 方法 查找 ConvolutionLayer 关键 词 获得 相关 
的 文件 列表 ， 再 按照 先头 文件 、 后 cpp 源 文件 、 最 后 cu 文件 的 顺序 依次 阅读 。 


7.3.2 全 连接 层 


其 实在 卷 积 网 络 出 现 之 前 ， 最 早 的 深度 学 习 网 络 计算 类 型 都 是 全 连接 形式 的 。 如 图 7-2 所 
示 的 DNN 模型 ， 也 可 以 被 解 恋 为 “Dense Neural Networks”. 





hidden layer 1 bidden laver 2 hidden layer 4 
input Inver 














图 7-2 ”DNN 模 型 


从 图 7-2 可 以 看 到 ， 每 个 节点 与 相 邻 层 的 所 有 节点 都 有 连接 关系 ， 这 是 “全 连接 层 ” 名 称 
的 由 来 。 


全 连接 层 的 主要 计算 类 型 为 算 阵 -向 量 乘 (GEMV)。 假设 输入 节点 组 成 的 向 量 为 x， 维度 为 
D， 输 出 节点 组 成 的 向 量 为 y， 维 度 为 VY， 则 全 连接 层 计算 可 以 表示 为 : 


y= Wx 
Hp, WAV -D AEREE KE. 


我 们 分 析 一 下 LeNet-5 第 一 个 全 连接 层 的 计算 量 和 参数 量 情况 。 在 examples/mnist/lenet_ 
train val.prototxt 中 找到 全 连接 参数 描述 ; 


inner product param { // 全 连接 层 参 数 
num output: 500 // 该 层 输 出 元 素 个 数 为 500， 对 应 公式 中 的 V 


weight filler { 
type: "xavier" 
} 


bias filler | 
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type: "constant" 


运行 日 志 : 
I0404 15:16:14.404871 1965830144 net.cpp:148] Top shape: 64 50 4 4 (51200) 
I0404 15:16:14.404881 1965830144 net.cpp:156] Memory required for data: 4911360 
I0404 15:16:14.404888 1965830144 layer factory.hpp:77] Creating layer ipl 
I0404 15:16:14.404901 1965830144 net.cpp:91] Creating Layer ipl 
I0404 15:16:14.404911 1965830144 net.cpp:425] ipl <- pool2 
10404 15:16:14.404925 1965830144 net.cpp:399] ipl -> ipl 
I0404 15:16:14.409618 1965830144 net.cpp:141] Setting up ipl 
10404 15:16:14.409646 1965830144 net.cpp:148] Top shape: 64 500 (32000) 


可 以 看 到 前 一 层 的 维度 信息 ， 而 在 全 连接 层 中 ， 直 接 将 前 一 层 输出 展开 为 一 维 向 量 (batch 
维度 除外 )， 所 以 ipl 层 对 应 的 输入 节点 数目 为 D=50.4.4=800 。 


全 连接 层 单 样本 前 向 传播 计算 量 统计 为 ; 
CalculationsMAC = V.D 


— 800-500 
— 400 000 
参数 量 统计 为 : 
Params = V.D 
= 800-500 
= 400 000 
CPR 值 为 : 


CPR = Calculations / Params = | 
可 见 ， 全 连接 层 的 CPR 值 始终 为 1， 与 输入 、 输 出 维度 无 关 。 从 这 个 角度 来 说 ， 单 样本 前 
癌 传播 计算 时 ， 权 值 重复 利用 率 很 低 。 


将 一 批 CBA) 样本 总 逐 列 拼 接 成 矩阵 X， 一 次 性 通过 全 连接 层 ， 得 到 一 批 得 出 向 量 构成 
的 和 矩阵 Y, 称 作 批 处 理 。 相 应 地 ， 前 面 的 和 矩阵- 向量 乘 运算 升 为 息 阵 - 息 阵 乘 计 算 (GEMM): 


Y-WX 
这 样 全 连接 层 前 向 计算 量 提高 了 B 倍 ， 而 参数 量 不 变 ， 因 此 CPR Seiki SB 倍 。 BUEDREEIE 
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样本 之 间 实 现 了 重用 〈 共 享 )， 可 提高 计算 速度 ，Caffe 中 全 连接 层 实现 可 以 通过 InnerProductLayer 
关键 词 查 阅 。 

与 7.3.1 节 的 卷 积 层 相 比 ， 全 连接 层 参 数量 是 其 16 倍 , poeni 25%。 如果 输出 特 
DCE TR NADA 就 是 说 ， 卷 积 层 在 输 
出 特征 图 维度 实现 了 权 值 共享 。 这 是 降低 参数 量 的 重要 举措 。 min ^ 只 层 局 部 连接 特性 
( 相 比 全 连接 ) 也 大 幅 减 少 了 参数 量 。 这 使 得 CNN 网 络 中 前 几 层 卷 积 层 参 数量 占 比 小 ， 计 算 量 
占 比 大 ; 而 后 几 层 全 连接 层 参 数量 占 比 大 , 计算 量 占 比 小 。 大 多 数 CNN 模型 都 符合 这 个 特点 站。 
因此 我 们 在 进行 计算 加 速 优化 时 ， 重点 放 在 卷 积 层 ， 而 在 进行 参数 优化 、 权 值 剪裁 时 ， 重 点 放 
在 全 连接 层 。 




















7.3.3 激活 函数 











深度 神经 网 络 之 所 以 具有 丰富 的 表达 能 力 ， 除 了 “ 深 ” 之 外 ， 还 有 一 个 重要 因素 即 非 线 性 
处 理 单 元 ， 称 为 激活 函数 (Activation Function) 或 挤 压 函数 (Squashing Function )。 本 节 将 关注 
如 何在 Caffe 中 的 非 线 性 层 实 现 这 些 激 活 函数 。 

如 图 7-3 所 示 的 神经 元 模型 , oO 即 为 激活 函数 ,实现 将 来 自前 一 层 的 输入 线性 组 合 结果 
动态 范围 压缩 到 特定 值 域 (如 [-1, 1])。 有 具备 非 线性 处 理 单元 的 深度 神经 网 络 〈 兰 3 层 )， 理 论 上 
可 以 逼近 任意 函数 吕 4 。 
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图 7-3 ”神经 元 模型 
几 个 常用 的 激活 函数 如 下 : 





(1) Sigmoid 函数 ， 值 域 为 (0, 1)， 见 图 7-4。 





gx) - — — 


l+e 
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图 7-4 Sigmoidré 2 


(2) tanh 函数 ， 值 域 为 (-1, 1), ILA 7-5 所 示 。 








图 7-5 tanh 函数 
(3) ReLU (Rectified Linear Unit, 規 整 化 袋 性 単元 ) 上 数 中 、 値 域 久 [0.+so) ， 是 一 种 非 饱 
和 激活 函数 ， 见 图 7-6。 


Br) = max(0, x) 





图 7-6 ReLUFÉ # 
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深度 神经 网 络 中 最 大 的 问题 是 梯度 消失 问题 (Gradient Vanishing Problem)， 这 在 使 用 
Sigmoid、tanh 等 饱和 激活 函数 情况 下 尤为 严重 〈 神 经 网 络 进行 误差 反 向 传播 时 ， 各 层 都 要 乘 以 
激活 函数 的 一 阶 导 数 G =e.o'0o0:x ， 梯 度 每 传递 一 层 都 会 衰减 一 次 ， 网 络 层 数 较 多 时 ， 梯 度 C 
就 会 不 停 地 衰减 直至 消失 )， 使 得 训练 网 络 时 收敛 极 慢 ， 而 ReLU 这 类 非 饱和 激活 函数 收敛 速度 
则 快 很 多 外。 本 书 使 用 的 深度 学 习 网 络 模 型 中 大 部 分 激活 函数 都 选择 ReLU。 


了 解 了 三 个 典型 的 非 线性 激活 函数 后 ， 接 下 来 我 们 学 习 在 Caffe 中 如 何 用 代码 实现 对 应 层 
的 计算 ， 包括 前 向 传播 计算 和 反 向 传播 计算 。Caffe 的 所 有 与 激活 函数 相关 的 Layer 类 声明 都 位 
于 include/caffe/neural layers.hpp 中 ， 本 书 将 它们 统称 为 非 线 性 层 ， 我 们 重点 关注 ReLULayer、 
SigmoidLayer 和 TanHLayer 这 三 类 。 


在 前 面 的 MNIST 例 程 中 LeNet-5 模型 使 用 了 ReLU 层 ， 在 examples/mnist/lenet train val. 
prototxt 中 找到 该 层 的 描述 
layer { // 新 的 非 线性 层 ， 用 Renu 方法 
name: "relul" 
type: "ReLU" 
bottom: "ipl" 


与 卷 积 层 、 全 连接 层 最 大 的 不 同 ， 就 是 没有 权 值 相关 的 参数 ， 描 述 相 对 简单 。 另 外 两 种 层 
没有 实际 样 人 ， 怎么 办 呢 ? 这 时 按照 我 们 的 Caffe 源码 阅读 方法 论 ， 从 src/caffe/proto/caffe.proto 
中 获得 灵感 。 

// ReLU 层 参数 
message ReLUParameter | 
// Leaky ReLU 参数 ， 我 们 暂 不 关心 
optional float negative slope = 1 [default - 0]; 


enum Engine |  // 计算 引擎 选择 
DEFAULT - 0; 
CAFFE = 1; // Caffe 实现 
CUDNN = 2; // CUDNN 实现 


} 

optional Engine engine - 2 [default = DEFAULT]; 
} 
// Sigmoid 层 参数 
message SigmoidParameter { 


enum Engine (| // 计算 引 警 选择 ww ai bbt.com HHHHHHH 
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DEFAULT = 0; 
CAFFE - 1; // Caffe XM 
CUDNN = 2; // CUDNN 实现 
} 
optional Engine engine = 1 [default = DEFAULT]; 
} 
// tanh 层 参 数 
message TanHParameter | 
enum Engine | // 计算 引擎 选择 
DEFAULT = 0; 
CAFFE — 1; // Caffe 实现 
i // CUDNN 实现 


ll 
N 


CUDNN 


} 
optional Engine engine = 1 [default = DEFAULT]; 


非 线性 层 的 共同 特点 就 是 对 前 一 层 blob 中 的 数值 逐一 进行 非 线 性 变换 ， 并 放 回 原 blob 中 。 
在 include/caffe/neural layers.hpp 中 查看 类 声明 如 下 : 


// 非 线性 层 的 鼻祖 NeuronLayer， 派 生 于 Layer 类 ， 特 点 是 输出 5lLlob (y) SHA blob (x) 尺寸 相同 
template «typename Dtype» 
class NeuronLayer : public Layer<Dtype> { 
public: 
explicit NeuronLayer(const LayerParameter& param) 
Layer«Dtype» (param) {} 
virtual void Reshape(const vector<Blob<Dtype>*>& bottom, 


const vector<Blob<Dtype>*>& top); 


virtual inline int ExactNumBottomBlobs() const { return 1; } 
virtual inline int ExactNumTopBlobs() const { return Le } 
le 
// RelULayer. JRE T NeuronLayer. IST ReLU 激活 函数 计算 
template <typename Dtype> 
class ReLULayer : public NeuronLayer<Dtype> { 
public: 
// 显 式 构造 函数 
explicit ReLULayer(const LayerParameter& param) 
NeuronLayer«Dtype» (param) {} 
// 返回 类 名 字符 串 


virtual inline const char* type() const | return "ReLU"; ) 
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protected: 
// 前 向 传播 函数 
virtual void Forward cpu(const vector«Blob«Dtype»*»& bottom, 
const vector<Blob<Dtype>*>& top); 
virtual void Forward gpu(const vector«Blob«Dtype»*»& bottom, 
const vector«Blob«Dtype»*»& top); 
// 反 向 传播 函数 
virtual void Backward cpu(const vector<Blob<Dtype>*>& top, 
const vector<bool>& propagate down, const vector<Blob<Dtype>*>& bottom); 
virtual void Backward gpu(const vector«Blob«Dtype»*»& top, 
const vector«bool»& propagáte down, const vector<Blob<Dtype>*>& bottom); 
}; 
// SigmoidLayer. 派生 于 NeuronLayer， 实 现 了 Sigmoid 激活 函数 计算 
template <typename Dtype> 
class SigmoidLayer : public NeuronLayer<Dtype> | 
public: 
// 显 式 构造 函数 
explicit SigmoidLayer(const LayerParameter& param) 
: NeuronLayer«Dtype» (param) {} - 
// 返回 类 名 字符 串 


virtual inline const char* type() const { return "Sigmoid"; | 


protected: 
// 前 问 传播 函数 
virtual void Forward cpu(const vector<Blob<Dtype>*>& bottom, 
const vector<Blob<Dtype>*>& top); 
virtual void Forward gpu(const vector«Blob«Dtype»*»& bottom, 
const vector«Blob«Dtype»*»5& top); 
// 反 向 传播 函数 
virtual void Backward cpu(const vector<Blob<Dtype>*>& top, 
const vector<bool>& propagate down, const vector<Blob<Dtype>*>& bottom); 
virtual void Backward gpu(const vector«Blob«Dtype»*»& top, 


const vector<bool>& propagate down, const vector«Blob«Dtype»*»& bottom); 


b 


// TanHLayer, YRKE F NeuronLayer, IMT tanh 激活 函数 计算 
template «typename Dtype> 
class TanHLayer : public NeuronLayer<Dtype> [ 
public: 
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// 显 式 构造 函数 

explicit TanHLayer(const LayerParameter& param) 
NeuronLayer«Dtype»(param) [|!| 

// 返回 类 名 字符 串 


virtual inline const char* type() const | return "TanH"; } 


protected: 
// 前 向 传播 函数 
virtual void Forward cpulconst vector<Blob<Dtype>*>& bottom, 
const vector«Blob«Dtype»*»5&'top); 
virtual void Forward gpu(const vector<Blob<Dtype>*>& bottom, 
const vector«Blob«Dtype»*»5& top); 
// 反 向 传播 函数 
virtual void Backward cpu(const vector<Blob<Dtype>*>& top, 
const vector«bool»& propagate down, const vector<Blob<Dtype>*>& bottom); 
virtual void Backward gpu(const vector<Blob<Dtype>*>& top, 
const vector«bool»& propagate down, const vector<Blob<Dtype>*>& bottom); 
H 


比较 简单 ， 各 自 声 明了 相应 的 Forward 和 Backward 函数 。 下 面 深入 到 这 些 函 数 的 实现 中 。 
首先 看 sre/caffe/layers/relu_layer.cpp 中 前 问 传 播 函数 的 实现 代码 。 


template <typename Dtype> 
void ReLULayer<Dtype>::Forward_cpu(const vector<Blob<Dtype>*>& bottom, 
coast vector<Blob<Dtype>*>& top) 1 

// 【只 读 ) 获得 输入 blob 的 data 指针 

const Dtype* bottom data = bottom[0]-»cpu data():; 

// GEO 获得 输出 blob 的 data 指针 

Dtype* top data = top[0]-»mutable cpu data(); 

// 获得 输入 blob 元 素 个 数 

const int count = bottom[0]-»count(); 

// Leaky ReLU BA, M layer param 中 获得 ， 默 认为 0， 即 普通 ReLU 

Dtype negative slope = this-»layer param .relu param().negative slope(); 

// 执行 ReLU 操作 。 我 们 关上 认为 negative slop 值 为 0， 不 考虑 Leaky ReLU 

for (int i = 0; i < count; +42) d 

top data[i] = std::max(bottom data[i], Dtype(0)) 


+ negative slope * std::min(bottom data[i], Dtype(0)); 
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不 出 所 料 ， 用 一 层 for 循环 就 搞定 了 。 下 面 看 反问 传播 函数 的 实现 代码 。 


template «typename Dtype> 
void ReLULayer«Dtype»::Backward cpu(const vector<Blob<Dtype>*>& top, 
const vector«bool»& propagate down, 
const vector«Blob«Dtype»*»& bottom) 1 
// 如 果 需 要 做 反 向 传播 计算 
if (propagate down[0]) { 
// OABD 获得 前 一 层 的 data 指针 
const Dtype* bottom data = bottom[0]-»cpu data(); 
// ORO. 获得 后 一 层 的 diff 指针 
const Dtype* top diff = top[0]-»cpu diff(); 
// RS) 获得 前 一 层 的 ditt 指针 
Dtype* bottom diff = MM 
// 获得 需要 参与 计算 的 元 素 总 
const int count = bottom[0]-»count(); 
// Leaky ReLU 参数 ， 姑 上 且 认 为 是 0 


Dtype negative slope = this->layer param .relu param().negative slope(); 


for (int i = 0; i « count; ++i) { 
// ReLU 的 导 函 数 就 是 (bottom data[i] > 0)， 根 据 求 导 链 式 法 则 ， 后 一 层 的 误差 乘 以 导 函 数 得 到 前 一 层 
// 的 误差 


bottom diff[i] = top diff[i] * ((bottom datali] > 0) 


* negative slope * (bottom data[i] «- 0)); 


从 上 面 代 码 可 以 看 到 ReLU 计算 非常 简单 。 下 面 看 SigmoidLayer 的 实现 ， 位 于 
src/caffe/layers/sigmoid layercpp 中 : 
// 实现 sigmoid 函数 ， 这 里 将 7.3.3 节 中 sigmoid 函数 中 的 参数 a 固定 设置 为 1 


template <typename Dtype> 
inline Dtype sigmoid(Dtype x) { 
return 1. / (1. + exp(-x)):; 
} 
// 前 向 传播 函数 
template «typename Dtype» 
void SigmoidLayer«Dtype»::Forward cpu(const vector<Blob<Dtype>*>& bottom, 
const vector<Blob<Dtype>*>& top) { 


const Dtype* bottom data - bottom[0]-»cpu data(); 
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Dtype* top data top[0]-»mutable cpu data(); 
const int count = bottom[0]-»count(); 
for (ist i = 0; i < count; ++i) f 


top data[i] = sigmoid(bottom data[i]); 


} 
// 反 向 传播 函数 
template <typename Dtype> 
void SigmoidLayer<Dtype>::Backward cpu(const vector<Blob<Dtype>*>& top, 
const vector<bool>& propagate down, 
const vector<Blob<Dtype>*>é& bottom) { 
if (propagate down[0]) { 
const Dtype* top data = top[0]-»cpu data(); 
const Dtype* top diff = top[0]->cpu_diff(); 
Dtype* bottom diff = bottom[0]-»mutable cpu diff(); 
const int count = bottom[0]-»count(); 
for (int i = 0; i < count; ++i) [ 
// top data 中 是 前 向 传播 阶段 计算 结果 g(x) ， 这 里 重用 ， 可 以 降低 计算 量 
const Dtype sigmoid x = top data[i]; 
// Sigmoid 函数 的 导 函 数 是 g(x)= o(x)-(0.— (x) > TRICK FRESE, Ti ERRORS E SR CET AES RU 
// 一 层 的 误差 
bottom diff[i] = top diff[i] * sigmoid x * (1. - sigmoid x); 


TanHLayer 的 实现 位 于 src/caffe/layers/tanh layer.cpp 中 : 


// 前 向 传播 函数 
template «typename Dtype> * 
void TanHLayer«Dtype»::Forward cpu(const vector<Blob<Dtype>*>& bottom, 
const vector<Blob<Dtype>*>& top) { 

const Dtype* bottom data - bottom[0]-»cpu data(); 

Dtype* top data = top[0]->mutable cpu data(); 

const int count = bottom[0]->count (); 

for (int i = 0; i «€ count; ++i) { 


top data[i] = tanh(bottom data[i]); 


} 
// 有 反问 传播 函数 
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template <typename Dtype> 
void TanHLayer<Dtype>::Backward cpu(const vector<Blob<Dtype>*>& top, 
const vector«bool»& propagate down, 
const vector<Blob<Dtype>*>& bottom) j 
if (propagate down[0]) { 
const Dtype* top data - top[0]-»cpu data(); 
const Dtype* top diff = top[0]-»cpu diff(); 
Dtype* bottom diff = bottom[0]-»mutable cpu diff(); 
const int count - bottom[0]-»count(); 
Dtype tanhx; 
for (int i = Op i € count; ++i) { 
// top data 中 是 前 向 传播 阶段 计算 结果 g(x) ， 这 里 重用 ， 可 以 降低 计算 量 
tanhx = top data[i]; 
// tanh 函数 的 导 函 数 是 gy'(x)=(1-g (0) ， 根 据 求 导 链 式 法 则 ， 后 一 层 的 误差 乘 上 导 函 数 即 得 到 前 一 层 的 误差 
bottom diff[i] = top diff[i] * (1 - tanhx * tanhx); 


可 见 ， 非 线性 层 虽 然 公 式 表 示 较 为 复杂 ， 但 代码 实现 都 非常 简洁 、 直 观 ， 只 要 掌握 了 基本 
求 导 技巧 ， 读 者 同样 可 以 推导 出 非 线性 层 其 他 类 的 反 向 传播 公式 。 读 者 可 试 着 做 做 练习 题 3。 


74 NE 
今天 我 们 从 整体 上 对 Caffe 做 了 一 个 概要 预览 ， 掌 握 了 使 用 关键 词 搜 索 阅 读 源 码 的 方法 。 


通过 了 解 一 些 组 织 良好 、 开 源 的 框架 实现 方式 ,学 习 其 优点 ， 并 熟练 应 用 到 自己 的 实际 开发 中 ， 
将 会 让 你 成 长 为 优秀 的 软件 架构 师 。 | 


7.5 Sm 


1. 在 Caffe 源码 中 查找 以 下 宏 的 原始 定义 : 


NOT IMPLEMENTED 
INSTANTIATE CLASS 


2，C++ 什 么 时 候 使 用 虚 函 数 ? 什么 时 候 使 用 类 模板 ? 什么 时 候 使 用 虚 基 类 ? 
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3. 推导 BNLLLayer 的 误差 反问 传播 公式 ， 其 激活 函数 为 : 


) x+log(l+e*),x>0 
X = 
log(l--e*), 否则 


答案 : 自己 阅读 src/caffe/layers/bnll layercpp。 


提示 : Caffe 源码 提供 的 并 不 是 最 优 算 法 ， 可 以 自己 修改 。 
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今天 我 们 来 一 起 阅读 Caffe 最 基础 的 数据 结构 源 合 。 在 Caffe 中 一 个 CNN 模型 使用 Net 表 
示 , M Net 是 由 多 个 Layer MEE. nl 8-1 所 示 。 











SoftmaxLossLayer 
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图 8-1 Caffe 数 据 结构 








A 《 効 学 》: DAE, TUR TH ABV, EARLE. Caffe 的 万 丈 高楼 CNet) 
古 按 照 我 们 设计 的 图 纸 Cprototxt), 用 Blob jacet PRX JE (Layer) 楼 房 ， 最 后 通过 SGD 
方 法 (Solver) 进行 简装 修 〈Train)、 精 装修 (Finetune) 实现 的 。 今 天 将 向 读者 介绍 Caffe KE 
的 砖 石 结构 Blob, Layer. Net 的 基本 概念 。 





8.1 Blob 





Caffe 使 用 称 为 Blob 的 4 维 数组 用 于 存储 和 交换 数据 。Blob 提供 了 统一 的 存储 器 接口 ， 持 

有 一 批 图 像 或 其 他 数据 、 权 值 、 权 值 更 新 值 。 其 他 深度 学 习 框架 也 有 与 Blob 对 应 的 数据 结构 ， 

如 Torch/Theano/TensorFlow 中 的 Tensor. MxNet 中 的 NDArray、cuda-convnet 中 的 NVMatrix 等 。 
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Blob 在 内 存 中 表示 4 维 数组 ， 维 度 从 低 到 高 为 (width_, height , channels ,num ), 如果 想 
Asi gt E LASCIO, width 和 height. 表示 图 像 的 宽 和 高 ，channels_ 表示 颜色 通道 RGB, num_ 
event 用 于 存储 数据 或 权 值 Cdata) 和 权 值 增 量 (diff)， 在 进行 网 络 计算 时 ， 每 层 的 输 

、 输 出 都 需要 通过 Blob ARAM. Blob 是 Caffe 的 基本 存储 单元 ， 下 面 就 从 该 类 入 手 开 始 
习 。 





8.1.1 Blob 基本 用 法 


为 了 更 好 地 理解 Caffe 源码 ， 我 们 先 建立 对 Blob 的 感性 认识 ， 学 会 如 何 使 用 Blob,“ 猜 测 ” 
其 实现 过 程 ， 最 后 再 通过 阅读 源 公 获得 答案 。 


在 使 用 Blob 之 前 , 需要 先 包含 涉 文件 “#include <caffe/blob.hpp>” 再 通过 “using namespace 
caffe;” 使 用 命名 空间 caffe. AAR C++ 的 同学 ， 建 议 手 边 放 一 本 《21 天 学 通 C++》 WA 
EE, BREE (^^). 


Blob 是 一 个 模板 类 ， 所 以 创建 对 象 时 需要 制定 模板 参数 。 写 一 个 简单 测试 程序 
blob demo.cpp: 


#include «vector» 
#include <iostream> 
#include <caffe/blob.hpp> 
using namespace caffe; 
using namespace std; 
int main(void) 
{ 
Blob<float> a; 
cout<<"Size : "<< a.shape string()««endl; 
a.Reshape(1, 2, 3, 4); 
cout<<"Size : "<< a.shape string()<<endl; 


return 0; 


如 上 代码 首先 创建 了 整 型 Blob 対象 a， 打 印 其 维度 信息 ， 然 后 调用 其 Reshape() 方 法 ， 再 
次 打印 其 维度 信息 。 
使 用 如 下 命令 编译 这 个 程序 (假设 之 前 已 经 编译 好 的 Caffe 位 干 SCAFFE ROOT): 


$ g++ -o app blob demo.cpp -I SCAFFE ROOT/include/ -D CPU ONLY V 


-I SCAFFE ROOT/.build release/src/ -L $CAFFE ROOT/build/lib/ -lcaffe 
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生成 了 可 执行 程序 app。 


运行 该 程序 : 
$ export LD LIBRARY PATH= SCAFFE ROOT/build/lib/:$LD LIBRARY PATH 
$ ./app 
Size : (0) 
Size : 12 3 4 (24) 


创建 Blob 对 象 之 后 ， 可 以 通过 mutable cpu[gpu] data[diff] 函 数 修改 其 内 部 数值 : 
// 续 上 面 代码 


float * p = a.mutable cpu data(); 




















for(int i = 0; i < a.count(); i++) 
{ 
pli] = i; 
} 
for(int u = 0; u <a.num(); u++) 
{ 
for(int v = 0; v «a.channels(); v++) 


{ 
for(int w = 0; w «a.height(); wt+) 
{ 
for(int x = 0; x «a.width(); x++) 


{ 


cout««"a["««u««"] ["««v««"] ["««w««"] ["<<x<<"] = "<< a.data at(u, v, w, x)<<endl; 
} 
} 
} 
} 

运行 结果 如 下 : 
a[0][0][0][0] = 0 
alo] [0] [0] [1] = 1 
a[0] [0] [9] [2] = 2 
a[o] [0] [0] [3] = 3 
a[0] [0] [1] [0] = 4 
a[0]I0] [1] [1] = 5 
a[0][0] [1] [2] = 6 
a[0] [0] [1] [3] = 7 
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a[0][1][0][3] = 15 
a 1][1][0] = 16 
a 1][1]I3] = 17 
a[0] [1] [1] [2] = 18 


a[0][1][1][3] = 19 
a[0][1][2][0] = 20 
a[O][1][2][T31] = 241 
a[0][1][2]1[I2] = 22 
a[0]111][2][3] = 23 














可児 , Blob 下 标 访问 与 C/C++ 高 维 数组 几乎 一 致 ， 而 Blob 的 强大 之 处 在 于 可 以 自动 同步 
CPU/GPU 上 的 数据 。 


Blob 还 支持 计算 所 有 元 素 绝对 值 之 和 “L1- 范 数 )、 平 方 和 “1L2- 范 数 ): 


/7 续 上 面 代码 

cout<<"ASUM = "««a.asum data()««endl; 

cout««"SUMSQ = "««a.sumsq data()««endl; 
输出 结果 为 : 

ASUM - 276 


SUMSQ - 4324 





除了 data， 我 们 还 可 以 改 di 在 部 分 ， 与 data 操作 基本 一 致 ， 


#include «vector» 
#include <iostream> 
#include <caffe/blob.hpp> 
using namespace caffe; 
using namespace std; 
int main (void) 
{ 

Blob<float> a; 


cout<<"Size : "<< a.shape string()««endl; 
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a.Reshape(1l, 2, 3, 4); 
cout<<"Size : "<< a.shape string()««endl; 
float * p = a.mutable cpu data(); 
float * q = a.mutable cpu diff(); 
for(int i = 0; i < a.count(); i++) 
{ 
plil = i; // 将 data 初始 化 为 1]，2; 3 n 
a.count() - 1 - i; // 将 diff Week 23, 22, 21, .. 


Il 


qli] 
} 
a.Update(); // 执行 Update 操作 , 将 diff 与 data 融合 
// 这 也 是 CNN 权 值 更 新 步骤 的 最 终 实施 者 
for(int u = 0; u < a.num(); ut) 
{ 
for(int v = 0; v < a.channels(); v**) 
{ 
for(int w = 0; w < a.height(); wt+) 
{ 
for(int x = 0; x < a.width(); x++) 


{ 
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cout««"a["««u««"] ["<<v<<"] ["<<w<<"] ["<<x<<"] = "<< a.data at(u, v, W, x) ««endl; 


} 


cout<<"ASUM = "««a.asum data()««endl; 
cout<<"SUMSQ = "««a.sumsq data ()««endl; 
return 0; 


编译 后 运行 输出 如 下 : 


$ ./app 

Size : (0) 

Size: 12 3 4 (24) 
a[0] [0] [0] [0] = -23 
a[0][0][0] [1] = -21 
a[0][0][0] [2] = -19 
a[0] [0] [0] [3] = -17 
a[0] [0] [1] [0] = -15 
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a[0][0] [1] [1] = -13 
&relro] [1][2] = <LI 
a[0][0] [1][3] = -9 
atol [0] [2] [0] = -7 
a[0]1[0][2]1I1] = -5 
a[0][01[2] [2] = -3 
a[0][0] [2] [3] = -1 
a[0][1][0][0] = 1 
a[0][11[0][1] = 3 
a[0][1]1[0][2] = 5 
a[0] [1F[0] [3] = 7 
a[0] [1] [1][0] = 9 
a[0][1][1][1] = 11 
a[0][1][1][2] = 13 
"a[o] [1] (1) [3] = 15 
a[0][1] [2] [0] = 17 
a[0][1] [2] [1] = 19 
a[0] [1] [2] [2] = 21 
a[0] E1) [2] [3] = 23 





ASUM = 288 
SUMSQ = 4600 


可 见 ， 在 Update() 函 数 中 ， 实 现 了 data = data — di 任 操 作 。 这 个 在 CNN 权 值 更 新 时 会 用 到 ， 
我 们 后 面 会 深入 研究 。 


将 Blob 内 部 值 保存 到 磁盘 , 或 者 从 磁盘 载 入 内 存 , 可 以 分 别 通过 ToProto()、FromProto() 实 


现 : 
// 续 上 面 代码 
// CC 
#include «caffe/util/io.hpp»  // 需要 包含 这 个 头 文件 
/ ア PC 
BlobProto bp; // 构造 一 个 BlobProto 対象 


a.ToProto(&bp, true); // 将 序列 化 , 连同 diff (默认 不 带 ) 
WriteProtoToBinaryFile(bp, "a.blob"); // 写 入 磁盘 文件 “a.blob” 


BlobProto bp2; // 构造 一 个 新 的 BlobProto 対象 
ReadProtoFromBinaryFileOrDie("a.blob", &bp2); // 读 取 磁盘 文件 
Blob«float» b; // 新 建 一 个 Blob 対象 b 


b.FromProto(bp2, true); // 从 序列 化 对 象 bp2 中 克隆 b (连同 形状 ) 
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for(int u = 0; u < b.num(); u++) 
{ 
for(int v = 0; v < b.channels(); v++) 
{ 
for(int w = 0; w < b.height(); wt+) 
{ 
for(int x = 0; x < b.width(); x++) 
{ 
// 打印 b 
cout<<"b["<<u<<"] ["««v««"] ["<<w<<"] ["<<x<<"] = "<< b.data at(u, v, W, x)<<endl; 


编译 时 加 入 “-lglog -Iboost system” 选 项 。 运 行 输出 如 下 ; 


$ ./app 
Size : (0) 
Size :12 3 4 (24) 

















a[0][0] [0] [0] = -23 
a[0][0][0] [1] = -21 
a[0][0][0][2] = -19 
a[0] [0] [0] [3] = -17 
a[0] [0] [1] [0] = -15 
a[0][0][1][1] = -13 
a[0] [0] [1] [2] = -11 
a[0] [0] [1] [3] = -9 
a[01[0] [2] [0] = -7 
a[0][0] [2] [1] = -5 
a[0] [0] [2] [2] = -3 
a[0] [0] [2] [3] = -1 
a[0][1][0][0] = 1 

a[01[1][0] [1] = 3 

a[0][1]I0] [2] = 5 

a[0] [11[01[3] = 7 

ato]tiltiiro] e 9 

a[0] [11 [11 [1] = 11 
a[0][1][1]12] = 13 
apoj tinira = 15 
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a[0][1]I2] [0] = 17 
a[0] [1] [2] [1] = 19 
a[0][1][2][2] = 21 
a[0][1] [2] [3] = 23 
ASUM = 288 

SUMSQ = 4600 

b[O] [0] [0] [0] = -23 
Bie} fo] toii] = -21 
b[0] [0] [0] [2] = -19 
b[0] [0] [0] [3] = -17 
b[O] [0] [1] [0] = -15 
b[0][0] [1] [1] = -13 
b[01[0] [1] [2】 = -11 
b[0][0] [1][3] = -9 
・ b[0110] [2] [0] = -7 
5[0][0] [2] [1] = =$ 
b[0]10112]12] = =3 
5I[0Jp0312113] = -1 
b[0 Q] fo] = L 
b[0 BIEL] = 3 
praj [1] [0] [2] = 5 
b[0 01[3] = 7 
b[0 14] (oy = 9 
b[0] [1] [1] [I] = 11 
BO] [1] [1] [2] = 13 
Wo] [L] [2] [3] = 15 
br0] [L] [2] [0] = 17 
b[O)] [1] [2] [1] = 19 
b[0][1]1[2] [2] = 21 
b[0][1][2][13] = 23 


























可 见 ，BlobProto 对 象 实现 了 做 盘 、 内 存 之 间 的 数据 通信 。 这 对 于 保存 、 载 入 训练 好 的 模型 
权 值 非常 实用 。 


8.1.2 ”数据 结构 描述 


打开 src/caffe/proto/caffe.proto， 首 先 映 入 眼帘 的 便 是 与 Blob 相关 的 描述 ， 可 见 该 数据 结构 
的 重要 性 ， 是 其 他 大 部 分 数据 结构 的 依赖 项 。 
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// 该 结构 描述 了 Blob 的 形状 信息 
message BlobShape ( 


repeated int64 dim - 1 [packed - true]; 只 包 插 若干 int64 类 型 值 , 分 别 表示 Blob 每 个 维度 的 
大 小 。packed 表示 这 些 值 在 内 存 中 紧密 排 布 ， 没 有 空洞 


} 
// 该 结构 描述 Blob 在 磁盘 中 序列 化 后 的 形态 
message BlobProto { 
optional BlobShape shape = 7; // 可 选 ， 包 括 一 个 BlobShape 対象 


repeated float data = 5 [packed = true]; // 包括 若干 浮 点 元 素 ， 存 储 数 据 或 权 值 ， 元 素数 目 由 shape 
或 (num, channels, height, width) 确定 ， 这 些 元 素 在 内 存 中 紧密 排 布 

repeated float diff = 6 [packed = true]; // 包括 若干 浮 点 元 素 ， 用 于 存储 增 量 信息 ， 维 度 与 data 
数组 一 致 

repeated double double data = 8 [packed = true];  // 与 data 并 列 ， 只 是 类 型 为 double 

repeated double double diff = 9 [packed = true];  // 与 diff 并 列 ， 只 是 类 型 为 double 


























// 以 下 为 可 选 的 维度 信息 ， 新 版 本 Caffe 推荐 使 用 shape， 而 不 再 用 后 面 的 值 
optional int32 num = 1 [default = 0]; 

optional int32 channels - 2 [default - 0]; 

optional int32 height = 3 [default = 0]; 

optional int32 width = 4 [default = 0] 


按照 C/C++ 的 思路 ， 我 们 也 可 以 直接 声明 上 述 BlobShape. BlobProto 为 结构 体 。 为 什么 
定 要 用 ProtoBuffer 这 种 格式 呢 ? 简 单 来 说 ， 结 构 体 存在 一 些 使 用 不 方便 的 地 方 。 首 先 ， 结 构 体 
的 序列 化 / 反 序列 化 操作 需要 额外 的 编程 实现 ， 难 以 做 到 接口 标准 化 : 其 次 ， 结 构 体 中 包含 变 长 
数据 (一 般 用 指向 某 个 内 存 地 址 的 指针 ) 时 ,需要 更 加 细致 的 工作 保证 数据 完整 性 ,而 ProtoBuffer 
将 编程 最 容易 出 问题 的 地 方 加 以 隐藏 , 让 机 器 自动 处 理 , 提高 了 程序 健壮 性 。 更 多 的 ProtoBuffer 
描述 规则 请 参阅 参考 资料 [2] 











8.1.3 Blob 是 怎样 炼 成 的 


Blob 是 一 个 模板 类 ， 声 明 在 include/caffe/blob.hpp 中 , 封装 了 SyncedMemory 类 ， 作 为 基本 
计算 单元 服务 Layer、Net、Solver 等 : 


#include .< 

#include "caffe/proto/caffe.pb.h" 

// H protoc 生成 的 头 文件 ， 声 明了 BlobProto. BlobShape 等 遵循 

// caffe.proto 协议 的 数据 结构 

#include "caffe/syncedmem.hpp" // CPU/GPU 共享 内 存 类 ， 用 于 数据 同步 


#include "caffe/util/math functions. as DER // 数学 计算 函数 
aibbt.com r1 n BB B u t 
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const int kMaxBlobAxes = 32; // Blob 最 大 维 数目 
template «typename Dtype» 
class Blob { // 类 声明 
public: 
// 默认 构造 函数 
Blob() : data (), diff (), count (0), capacity (0) {} 
// 显 式 构 造 函数 ， 避 免 隐 式 数据 类 型 转换 
explicit Blob(const vector<int>& shape); 
// 变形 函数 ， 根 据 输 入 参数 重新 设置 当前 Blob 形状 ， 必 要 时 重新 分 配 内 存 
void Reshape(const vector<int>& shape); 
void Reshape(const BlobShape& shape); 
void ReshapeLike(const Blob& other); 
// 得 到 Blob 形状 字符 串 用 于 打印 log, 児 Caffe 运行 1og， 类 似 
// "Top shape: 100 i 28 28 (78400)" 
inline string shape string() const { 


ostringstream stream; 


for (int i = 0; i « shape .size(); tti) | 
stream «« shape [i] «« " "; 

} 

stream << "(" << count << ")"; 


return stream.str(); 
} 
// 返回 Blob 形状 
inline const vector«int»& shape() const { return shape ; } 
// 返回 某 一 维度 的 尺寸 
inline int shape (int index) const 1 
return shape [CanonicalAxisIndex(index)]; 
) 
// 返回 维度 数目 ・ 
inline int num axes() const { return shape .size(); } 
// 返回 Blob 中 元 素 总 数 
inline int count() const { return count ; } 
// 返回 Blob 中 某 几 维 子 集 的 元 素 总 数 
inline int count(int start axis, int end axis) const { 


CHECK LE(start axis, end axis); // 保证 start axis <= end axis 


CHECK GE(start axis, 0); // f&üEstart axis >= 0 

CHECK GE(end axis, 0); // 保证 end axis >= 0 

CHECK LE(start axis, num axes());  // 保证 start axis <= 总 的 维度 数目 
CHECK LE(end axis, num axes()); // 保证 enq axis <= 总 的 维度 数目 
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int count - 1; 
for (int i = start axis; i < end axis; ++i) 1 
count *- shape(i); 
) 
return count; 
} 
// 计算 从 某 一 维度 开始 的 元 素 总 数 
inline int count(int start axis) const [ 
return count(start axis, num axes ()); 
} 
// 转换 坐标 轴 索 引 [-N, N) 为 普通 索引 [ov,N) 
inline int CanonicalAxisIndex(int axis index) const | 
CHECK GE(axis index, -num axes()) // {Rik axis index >= -num axes() 
<< "axis " << axis index << " out of range for " << num axes() 
«« "-D Blob with shape " «« shape string(); 
CHECK LT(axis index, num axes()) // 保证 axis index < num axes() 
<< "axis " << axis index << " out of range for " << num axes() 
<< "-D Blob with shape " << shape string(); 
if (axis index « 0) | 
return axis index + num axes(); // 负 索 引 表 示 从 后 向 前 访问 ，-IL 表示 最 后 一 个 元 素 , MAGI 


值 为 N-1; 同 理 ，-2 => N-2, -3 => N-3, 

} 

return axis index; 
} 
// 获取 形状 某 一 维 的 尺寸 
inline int num() const ( return LegacyShape(0); } 
inline int channeis() const | return LegacyShape(1); ) 
inline int height() const { return LegacyShape(2); ] 
inline int width() const { return LegacyShape(3); } 
inline int LegacyShape(int index) const | 


CHECK LE(num axes(), 4) 


<< "Cannot use legacy accessors on Blobs with > 4 axes."; 


CHECK LT(index, 4); 

CHECK GE(index, -4); 

if (index »- num axes() || index « -num axes()) | 
return 1; 

} 


return shape (index); 
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// Wifi JLA rA LE TED ES fi (9) 
inline int offset(const int n, const int c = 0, const int h = O0, 
const int w= 0) const { 
CHECK GE(n, 0); 
CHECK LE(n, num()); 
CHECK GE(channels(), 0); 
CHECK LE(c, channels()); 
CHECK GE(height(), 0); 
CHECK LE(h, height()); 
CHECK GE(width(), 0); 
CHECK LE(w, width()); 
return ((n * channels() + c) * height() + h) * width() + w; 
} 
inline int offset(const vector<int>& indices) const { 
CHECK LE(indices.size(), num axes()); 
int offset = 0; 
for (int i = 0; i < num axes(); ++i) { 
offset *- shape(i); 
if (indices.size() > i) | 
CHECK GE(indices[i], 0); 
CHECK LT(indices[i], shape(i)); 


offset += indices[i]; 


} 
return offset; 
) 
// 按 值 拷贝 Blob 到 当前 Blob 
void CopyFrom(const Blob<Dtype>s source, bool copy diff = false, 
bool reshape - false); 
// 这 几 个 函数 都 是 存 取 器 Cgetter/setter) 
inline Dtype data at(const int n, const int c, const int h, 
const int w) const { 
return cpu data()[offset(n, c, h, w)]; 
} 
inline Dtype diff at(const int n, const int c, const int h, 
const int w) const { 
return cpu diff()[offset(n, c, h, w)]; 
} 
inline Dtype data at(const Vector<int>& index) const { 


return cpu_data() [offset (index) ] 
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} 

inline Dtype diff at(const vector<int>& index) const { 
return cpu_diff() [offset (index) ]; 

} 

inline const shared ptr«SyncedMemory»& data() const | 
CHECK (data ); 
return data ; 

} 

inline const shared ptr«SyncedMemory»& diff() const { 
CHECK (diff ); 
return diff ; 

} 

// 只 读 访 问 cpu data 

const Dtype* cpu data() const; 

// 设置 cpu data 

void set cpu data(Dtype* data); 

// 上 只 读 访问 gpu data 

const Dtype* gpu data() const; 

// Hi&Wild cpu diff 

const Dtype* cpu diff() const; 

// 只 读 访 问 gpu diff 

const Dtype* gpu diff() const; 

//- 读 写 访问 cpu data 

Dtype* mutable cpu data(); 

// 读 写 访问 gpu data 

Dtype* mutable gpu data(); 

// 读 写 访问 cpu diff 

Dtype* mutable cpu diff(); 

// 读 写 访问 gpu diff 





Dtype* mutable gpu diff(); 

void Update(); // Blob 更 新 运算 ， 可 简单 理解 为 aata 5 dift 的 merge Whe 
// 反 序 列 化 函数 ， 从 BlobProto 中 恢复 一 个 Blob 対象 

void FromProto(const BlobProto& proto, bool reshape = true); 

// 序列 化 函数 ， 将 内 存 中 的 Blob 对 象 保存 到 BlobProto 中 

void ToProto(BlobProto* proto, bool write diff = false) const; 
// 计算 data 的 L1- 范 数 

Dtype asum data() const; 

// 计算 diff 的 11-8 

Dtype asum diff() const; 
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// 计算 aata 的 22=- 范 数 

Dtype sumsq data() const; 

// 计算 aiff 的 LI2- 范 数 

Dtype sumsq diff() const; 

// data HP tt 

void scale data(Dtype scale factor); 
// diff 乘 以 一 个 标量 

void scale diff(Dtype scale factor); 
// 共享 另 一 个 Blob 的 data | 

void ShareData(const Blob& other); 


void ShareDiff(const Blob& other); // 共享 男 一 个 Blob 的 Gdiff_ 


bool ShapeEquals(const BlobProto& other); 


protected: 
Shared ptr«SyncedMemory» data : // 存放 指向 data 的 指针 
shared ptr«SyncedMemory» diff ; // 存放 指向 diff 的 指针 
vector<int> shape ; // 形状 信息 
int count ; | // 存放 有 效 元 素数 目 信息 
int capacity ; // 存放 Blob 容器 的 容量 信息 
DISABLE COPY AND ASSIGN (Blob); // 禁用 拷贝 构造 函数 、 赋 值 运算 符 重 载 


); // class Blob 


注意 到 Caffe 类 中 成 员 变量 名 都 带 有 后 级 “_“”， 这 样 在 函数 实现 中 容易 区 分 临时 变量 和 类 


打开 include/caffe/syncedmem.hpp， 查 看 该 类 的 用 法 : 


&ifndef CAFFE SYNCEDMEM HPP_ 
#define CAFFE SYNCEDMEM HPP 


#include <cstdlib> 


#include "caffe/common.hpp" 


include "caffe/util/math functions.hpp" 


namespace caffe | 


// 如 果 在 GEU 模式 , H Cupa 使 能 ， 那 么 主机 内 存 会 以 页 锁定 内 存 方式 分 配 (使 用 cudaMallocHost () 函数 。 对 于 
单 GPU 的 性 能 提升 不 明显 ， 但 多 GPU 会 非常 明显 


inline void CaffeMallocHost(void** ptr, size t size) | 
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#ifndef CPU ONLY 
if (Caffe::mode() == Caffe::GPU) { 
CUDA CHECK(cudaMallocHost(ptr, size)); 
return; 
} 
#endif 
*ptr = malloc (size); 
CHECK (*ptr) << "host allocation of size " «« size << " failed"; 
} 
// 5 CaffeMallocHost 对 应 
inline void CaffeFreeHost (void* ptr) { 
#ifndef CPU_ONLY 
if (Caffe::mode() == Caffe::GPU) { 
CUDA_CHECK (cudaFreeHost (ptr) ) 7 
return; 
} 
fendif 


free(ptr); 


// 该 类 负责 存储 分 配 以 及 主机 和 设备 间 同 步 
class SyncedMemory { 
public: 
// 构造 函数 
SyncedMemory () 
cpu ptr (NULL), gpu ptr (NULL), size (0), head (UNINITIALIZED), 
own cpu data (false), own gpu data (false), gpu device (-1) {} 
// 显 式 构造 函数 
explicit SyncedMemory(size t size) 
cpu ptr (NULL), gpu ptr (NULL), size (size), head (UNINITIALIZED), 
own cpu data (false), own gpu data (false), gpu device (-1) {} 
// 析 构 函数 
~SyncedMemory () ; 


// Getters/Setters 


const void* cpu data(); // 只 读 获 取 cpu data 
void set cpu data(void* data); // 设置 cpu data 
const void* gpu data(); // 只 读 获取 gpu data 
void set gpu data(void* data); // 设置 gpu data 
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void* mutable cpu data(); // 读 写 获取 cpu data 

void* mutable gpu data(); // 读 写 获取 gpu data 

// 状态 机 变量 ， 表 示 4 种 状态 ;未 初始 化 、CPU 数据 有 效 、GPU 数据 有 效 、 已 同步 
enum SyncedHead { UNINITIALIZED, HEAD AT CPU, HEAD AT GPU, SYNCED 
// 获得 当前 状态 机 变量 值 

SyncedHead head() | return head ; | 

// 获得 当前 存储 空间 尺寸 


size t size() { return size ; } 


#ifndef CPU ONLY 


void-async gpu push(const cudaStream tg stream); 


endif 

private: 
void to cpu(); // 数据 同步 至 CPU 
void to gpu(); // 数据 同步 至 GPU 
void* cpu ptr ; // 位 于 cpu 的 数据 指针 
void* gpu ptr ; // 位 于 GPU 的 数据 指针 
size t size ; // 存储 空间 大 小 
SyncedHead head ; // 状态 机 变量 


bool own cpu data ; // SAA CPU 数据 所 有 权 ( 否 ， 即 从 别 的 对 象 共享 ) 
bool own gpu data ; // 标志 是 否 拥有 GPU 数据 所 有 权 
int gpu device ; // GPU 设备 号 


DISABLE COPY AND ASSIGN (SyncedMemory); 
); // class SyncedMemory 


) // namespace caffe 


#endif // CAFFE SYNCEDMEM HPP 


Blob 类 实现 的 源码 位 于 src/caffe/blob.cpp 中 ， 内 容 如 下 : 


#include <climits> 


#include <vector> 


#include "caffe/blob.hpp" 

#include "caffe/common.hpp" 

#include "caffe/syncedmem.hpp" 

#include "caffe/util/math functions.hpp" 
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namespace caffe | 
// ZERB He (num, channels, height, width) 参数 转换 为 vector<int>， 然 后 调用 重 载 的 变 维 函 数 void 
Blob«Dtype»::Reshape(const Vector<int>& shape) 
template <typename Dtype> 
void Blob<Dtype>::Reshape (const int num, const int channels, const int height, 
const int width) { 


vector<int> shape(4); 


I 


shape [0] num; 
shape[1] = channels; 
shape[2] = height; 
shape[3] = width; 
Reshape (shape) ; 

} 

// 真正 变 维 函 数 

template <typename Dtype> 

void Blob<Dtype>::Reshape (const vector<int>& shape) 1 
CHECK LE(shape.size(), kMaxBlobAxes); // 保证 vector 维度 <=kMaxBlobAxes 
count = 1; // 用 于 计算 元 素 总 数 = num * channels. * height * width 


shape .resize(shape.size()); // 成 员 变 量 维度 也 被 重 置 
for (inti = 0; i < shape.size(); ++i) { 
CHECK GE (shapelil, 0); // 保证 每 维度 尺寸 都 >= 0 


// 保证 count 不 溢出 
CHECK LE(shape[i], INT MAX / count ) «« "blob size exceeds INT MAX"; 


count *= shape[i]; // count XE 
shape [i] = shape[i]; // 为 成 员 变量 赋值 

} 

if (count > capacity ) I // 加 果 新 的 count 大 于 当前 已 分 配 空间 容量 
capacity = count ; // 扩容 ， 重 新 分 配 data 和 diff 空间 


data .reset(new SyncedMemory(capacity * sizeof (Dtype) nye 


diff .reset(new SyncedMemory(capacity * sizeof (DEyPe) ) ) 


} 

// void Blob<Dtype>::Reshape (const BlobShape& shape) Ñ 

// void Blob«Dtype»::ReshapeLike(const Blob«Dtype»& other)JS(, WE 

// 构造 函数 

template <typename Dtype> 

Blob<Dtype>::Blob (const int num, const int channels, const int height, 
const int width) 


// 调用 Reshape 之 前 必须 初始 化 cepa a pd com HHHHHHH 
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capacity (0) { 
Reshape(num, channels, height, width); 
} 
// 只 读 获 得 cpu data 指针 
template «typename Dtype> 
const Dtype* Blob<Dtype>::cpu_data() const | 
CHECK(data ); // 保证 data 不 为 NULL 
return (const Dtype*)data -»cpu data(); 
} 
// 修改 cpu data 指针 
template «typename Dtype» 
void Blob«Dtype»::set cpu data(Dtype* data) { 
CHECK (data); // 保证 data FH NULL 
data -»set cpu data(data); // 设置 成 员 变量 值 为 传 入 参数 值 
'] 
// 只 读 获得 gpu data 指针 
template <typename Dtype> 
const Dtype* Blob<Dtype>::gpu_data() const { 
CHECK(data ); // 保证 data 不 为 NULL 
return (const Dtype*)data ->gpu data(); 
i i 
// 只 读 获 得 cpu ditt 指针 
template «typename Dtype» 
const Dtype* Blob«Dtype»::cpu diff() const [ 
CHECK (diff ); // 保证 diff 不 为 NULL 
return (const Dtype*)diff -»cpu data(); 
} 
// 只 读 获 得 gpu diff 指针 
template «typename Dtype> 
const Dtype* Blob«Dtype»::gpu diff() const { 
CHECK (diff ); // 保证 diff 不 为 NULL 
return (const Dtype*)diff ->gpu data(); 
} 
// 读 写 访问 cpu data 指针 
template <typename Dtype> 
Dtype* Blob<Dtype>::mutable cpu data() | 
CHECK (data ); 


return static cast«Dtype*»(data -»mutable cpu data()):; 
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// 读 写 访问 gpu data 指针 
template «typename Dtype» 
Dtype* Blob«Dtype»::mutable gpu data() { 
CHECK(data ); 
return static cast«Dtype*»(data -»mutable gpu data()); 
} 
// 读 写 访问 cpu diff 指针 
template «typename Dtype» 
Dtype* Blob«Dtype»::mutable cpu diff() { 
CHECK (diff ); 
return static cast«Dtype*» (diff -»mutable cpu data()); 
} 
// 读 写 访问 gpu diff 指针 
template «typename Dtype> 
Dtype* Blob«Dtype»::mutable gpu diff() { 
CHECK(diff ); 
return static cast«Dtype*» (diff -»mutable gpu data()); 
} 
// 共享 男 一 个 Blob 的 data 指针 
template <typename Dtype> 
void Blob«Dtype»::ShareData(const Blob& other) { 
CHECK EQ(count , other.count()); 
data = other.data(); 
} 
// 共享 男 一 个 Blob 的 diff 指针 
template <typename Dtype> 
void Blob«Dtype»::ShareDiff(const Blob& other) 1{ 
CHECK EQ(count , other.count()); 
diff = other.dift(); 














// Update () 函数 用 于 网 络 参数 Blob 的 更 新 。 其 中 int M unsigned int 类 型 处 理 并 未 实现 
template <> void Blob<unsigned int>::Update() { NOT IMPLEMENTED; } 





template <> void Blob<int>::Update() { NOT IMPLEMENTED; } 
template <typename Dtype> 
void Blob<Dtype>::Update() { 

// data 在 哪里 ， 就 在 哪里 更 新 

switch (data -»head()) { 


case SyncedMemory::HEAD AT CPU: // data 位 于 CPU 端 
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// 执行 CPU 上 的 计算 ，data_[i] = data [i] - diff [i], i = 0, 1, 2, = ,count -1 
caffe axpy«Dtype» (count , Dtype(-1), 
static cast«const Dtype*»(diff -»cpu data()), 
static cast«Dtype*» (data -»mutable cpu data())); 
break; 
case SyncedMemory::HEAD AT GPU: // data 位 于 GPU 端 ， 或 者 CPU/VGPU 已 同步 
case SyncedMemory::SYNCED: 
Kifndef CPU ONLY f 
// 执行 GPU 上 的 计算 ,data_[i] = data [i] - diff [i], i = 0, 1, 2, .. ,count -1 
caffe gpu axpy«Dtype»(count , Dtype(-1), 
static cast«const Dtype*»(diff -»gpu data()), 


static cast«Dtype*» (data -»mutable gpu data())); 


felse 
NO GPU;  // 编译 时 打开 了 CPU ONLY 选项 ， 那 么 GPU 模式 禁用 
#endif 
break; 
default: 


LOG(FATAL) << "Syncedmem not initialized."; 


// 计算 data 的 L1- 范 数 
template «typename Dtype> 
Dtype Blob«Dtype»::asum data() const { 
if (!data ) { return 0; } 
switch (data ->head()) { 
case SyncedMemory::HEAD AT CPU: 
return caffe cpu asum(count , cpu data());  // 执行 CPU 上 的 asum 计算 
case SyncedMemory::HEAD AT GPU: 
case SyncedMemory::SYNCED: 
#ifndef CPU ONLY 
{ 
Dtype asum; 
caffe gpu asum(count , gpu data(), &asum);  // 执行 GPU 上 的 asum 计算 
return asum; 
} 
telse 
NO_GPU; 
fendif 
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case SyncedMemory::UNINITIALIZED: 
return 0; 
default: 
LOG (FATAL) << "Unknown SyncedMemory head state: " << data -»head(); 
! 
return 0; 
} 
// 计算 data 的 12- 范 数 
template <typename Dtype> 
Dtype Blob<Dtype>::sumsq data() const { 
Dtype sumsq; A 
const Dtype* data; 
if (!data ) { return 0; } 
switch (data -»head()) { 
case SyncedMemory::HEAD AT CPU: 
data = cpu data(); 
sumsq = caffe cpu dot(count , data, data);  // 执行 CEU EW dot 计算 
break; 
case SyncedMemory::HEAD AT GPU: 
case SyncedMemory::SYNCED: 
#ifndef CPU ONLY 
data = gpu data(); 
caffe gpu dot(count , data, data, &sumsq);  // 执行 GPU 上 的 aot 计算 
#e1se 
NO GPU; 
fendif 
break; 
case SyncedMemory: :UNINITIALIZED: 
return 0; 
default: 
LOG (FATAL) << "Unknown SyncedMemory head state: " << data -»head(); 
} 
return sumsq; 
! 
// 对 data 进行 幅度 缩放 
template <typename Dtype> 
void Blob«Dtype»::scale data(Dtype scale factor) 1 
Dtype* data; 


if (!data ) { return; } 
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switch (data -»head()) { 
case SyncedMemory::HEAD AT CPU: 
data = mutable cpu data(); // 执行 CPU 上 的 计算 


caffe scal(count , scale factor, data); // datali] = data[i] * scale factor, i = 0, 
1, 2, «=, count -i 


return; 
case SyncedMemory::HEAD AT GPU: 
case SyncedMemory: :SYNCED: 
#ifndef CPU ONLY 
data = mutable gpu data(); // 执行 GPU 上 的 计算 
caffe gpu scal(count , scale factor, data); 
return; 
telse 
NO GPU; 
#fendif 
case SyncedMemory: : UNINITIALIZED: 
return; 
default: 
LOG (FATAL) << "Unknown SyncedMemory head state: " << data -»head(); 


} 
// 判断 形状 是 否 相 同 
template «typename Dtype> 
bool Blob«Dtype»::ShapeEquals (const BlobProto& other) { 
if (other.has num() || other.has channels() |l 
other.has height() || other.has width()) ( 
// 输入 的 维度 若 使 用 过 时 的 维度 信息 (num, channels,height, width)， 则 需要 转换 为 新 的 Vector £ 
// 数 代码 使 用 了 c++ 中 的 “ 憎 " eat 


return shape .size() <= 4 && 


LegacyShape(-4) -- other.num() && 
LegacyShape(-3) == other.channels() && 
LegacyShape(-2) -- other.height() && 
LegacyShape(-1) == other.width(); 
) 
// 直接 对 比 


vector<int> other shape(other.shape().dim size()); 
for (int i = 0; i < other.shape().dim size(); ++i) 1 
other shape[i] = other.shape().dim(i); 
} 


return shape == other shape; 
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} 
// 从 另 一 个 Blob 对 象 拷贝 data (可 选 diff)， 必 要 时 进行 变 维 
template <typename Dtype> 
void Blob«Dtype»::CopyFrom(const Blob& source, bool copy diff, bool reshape) 1 
if (source.count() != count_ || source.shape() != shape_) { 
if (reshape) { 
ReshapeLike (source); // 要 求 变 维 ， 那 就 照 做 
) else {// 两 个 Blob 形状 不 同 ， 硬 要 拷贝 ,“ 让 将 做 不 到 啊 ” 
LOG(FATAL) «« "Trying to copy blobs of different sizes."; 


) 
switch (Caffe::mode()) { 
case Caffe::GPU: // 如果 使用 GPU 模式 ， 就 用 gpu 的 方法 
if (copy diff) | 
caffe copy(count , source.gpu diff(), 
static cast«Dtype*» (diff -»mutable gpu data())); // diff -> diff 
} else { 
caffe copy(count , source.gpu data(), 


static cast«Dtype*»(data -»mutable gpu data())); // data -> data 


} 
break; 
case Caffe::CPU: // 如 果 使 用 cPU 模式 ， 就 用 cpu 的 方法 
if (copy diff) i 
caffe copy(count , source.cpu diff(), 
static cast«Dtype*» (diff -»mutable cpu data())); 
) else { 
caffe copy(count , source.cpu data(), 
static castcDtype*» (data -»mutable cpu data())); 
} 
break; 


default: 
LOG(FATAL) << "Unknown caffe mode."; 


} 
// 从 BlobProto 中 加 载 一 个 BlIob， 适 用 于 从 磁盘 载 入 之 前 导出 的 Blob 


template «typename Dtype> 
void Blob«Dtype»::FromProto(const BlobProto& proto, bool reshape) { 


if (reshape) | // 从 BlobProto 对 象 中 获得 所 需 各 个 维度 信息 


vector«int» shape; 
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if (proto.has num() || proto.has channels() || 
proto.has height() || proto.has width()) { 

// 过 时 的 维度 信息 (num, channels, height, width) 
shape.resize(4); 
shape[0] = proto.num(); 
shape[1] = proto.channels(); 
shape[2] = proto.height(); 
shape[3] = proto.width(); 


oa 


else { 
shape.resize(proto.shape().dim size()); 
for (int i = 0; i < proto.shape().dim size(); ++i) | 


shape[i] = proto.shape().dim(i); 


} 
Reshape (shape); // Blob 按照 维度 信息 进行 变 维 
) else | 
CHECK(ShapeEquals(proto)) << "shape mismatch (reshape not set)"; 
} 
// 加 载 数 据 
Dtype* data vec = mutable cpu data(); 
if (proto.double data size() > 0) | // 如 果 之 前 保存 的 是 double 类 型 data 
CHECK EQ(count , proto.double data size()); 
for (int i = 0% i < count z ^ti) { 
data vec[i] = proto.double data(i); // M4 double data 
! 
P else | 
CHECK EQ(count , proto.data size()); 
for (int i = 0; i € count ; ++i) | 


data vec[i] = proto.data(i);  // 否则 加载 float data: 


} 
if (proto.double diff size() > 0) ( // 如 果 之 前 保存 的 是 double 类 型 diff 
CHECK EQ(count , proto.double diff size()); 
Dtype* diff vec = mutable cpu diff(); 
for (int i = 0; i € count 4 +41) { 
diff vec[i] = proto.double diff(i); // 加 载 double diff 
) 
) else if (proto.diff size() » 0) ( 
CHECK EQ(count , proto.diff size()); 
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Dtype* diff vec = mutable cpu diff(); 
for (int i= 0; i < count ; ++i) { 


diff vec[i] = proto.diff(i); // 和 否则 加 载 float diff 


// 将 Blob 中 的 data (可 选 diff) 导出 到 BlobProto 结构 体 ， 便 于 存储 到 磁盘 文件 中 
template <> 
void Blob«float»::ToProto(BlobProto* proto, bool write diff) const { 
proto-»clear shape(); // € proto 的 维度 ， 保 证 与 Blob 相同 
for (int i = 0; i < shape .size(); ++i) { 
proto-»mutable shape()-»add dim(shape [i]); 
} 


proto->clear data(); // 清除 data 
proto-»clear diff(); // 清除 diff 
const float* data vec = cpu data();  // 将 data 导出 到 Proto 


for (int i = 0; i < count ; ++i) { 
proto-»add data(data yec[1i] ) : 

) 

if (write diff) { // EA write diff 的 需求 
const float* diff vec = cpu diff(); // 将 diff 导出 到 proto 
for (int i = 0; i < count ; ++i) { 


proto-»add diff(diff vec[i]):; 


INSTANTIATE CLASS(Blob);  // 实例 化 Blob 类 模板 (float, double) 
template class Blob<int>; 


template class Blob«unsigned int»; 


} // namespace caffe 


至 此 ， 我 们 看 完了 Caffe 的 砖 块 是 如 何 烧 制 的 。 下 面 准 备 开 始 搬 砖 ! 


8.2 Layer 


Layer 是 Caffe 的 基本 计算 单元 , 至 少 有 一 个 输入 Blob (Bottom Blob) 和 一 个 输出 Blob (Top 
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Blob), 部 分 Layer 带 有 权 值 (Weight) 和 偏 置 项 (Bias)， 有 了 两 个 运算 方向 : 前 向 传播 (Forward ) 
和 反问 传播 〈Backward)， 其 中 前 向 传播 计算 会 对 输入 Blob 进行 某 种 处 理 (有 权 值 和 偏 置 项 的 
Layer 会 利用 这 些 对 输入 进行 处 理 )， 得 到 输出 Blob: 而 反 向 传播 计算 则 对 输出 Blob 的 diff 进 
行 某 种 处 理 ， 得 到 输入 Blob 的 diff (有 权 值 和 偏 置 项 的 Layer 可 能 也 会 计算 权 值 Blob、 偏 置 项 
Blob 的 diff)。 


8.2.1 数据 结构 描述 


// 注意 : 如 果 你 增加 了 一 个 新 的 LayerParameter 域 ， 一 定 记得 更 新 下 一 个 可 用 ID 
/7 下 一 个 ID 为 137， 最 近 更 新 : reduction param 


message LayerParameter | 


optional string name = 1; // Layer 名 称 

optional string type - 2; // Layer 类 型 

repeated string bottom = 3; // 输入 Blob (Bottom Blob) 的 名 称 
repeated string top = 4; // 输出 Blob (Top Blob) 的 名 称 


optional Phase phase = 10; // 当前 阶段 CTRAIN Sk TEST) 

// 为 每 个 Top Blob 分 配对 损失 函数 的 权重 ， 每 个 Layer 都 有 默认 值 ， 要 么 为 0， 表示 不 参与 目标 函数 计算 ， 要 么 
为 1， 表示 参与 损失 函数 计算 

repeated float loss weight = 5; 


6;// 指定 训练 参数 例如 相对 全 局 学 习 常 数 的 缩放 因子 ， 以 及 用 于 权 值 共享 


repeated ParamSpec param 
的 名 称 或 其 他 设置 ) 

repeated BlobProto blobs = 7;// 承载 了 该 层 数值 参数 的 Blob 

repeated bool propagate down = 11;// 是 在 对 Bottom Blob 进行 反 向 传播 过 程 。 该 字段 的 维度 应 与 
Bottom Blob 个 数 一 致 

// 控制 某 个 层 在 某 个 时 刻 是 否 包含 在 网 络 中 ， 基 于 当前 NetState。 你 可 以 为 include a exclude (不 要 同时 ) 
指定 非 零 值 。 如 果 没 有 任何 规则 ， 那 么 该 层 一 直 包 含 在 网 络 中 ;如果 当前 NetState 满足 了 任何 一 个 指定 规则 ， 那 么 
该 层 会 被 包含 或 排斥 : 


repeated NetStateRule include = 8; 


repeated NetStateRule exclude - 9; 

optional TransformationParameter transform param = 100;// 数据 预 处 理 参数 

optional LossParameter loss param = 101;// 所 有 损失 层 共享 的 参数 

// 特定 类 型 层 的 参数 。 注 意 一 些 层 实现 时 可 能 有 多 于 一 种 的 计算 引擎 ,这 些 层 包括 一 个 引擎 类 型 和 引擎 参数 来 选择 
实现 。 上 默认 引擎 是 在 编译 阶段 由 引擎 开关 设置 的 


optional AccuracyParameter accuracy param = 102; 





optional ArgMaxParameter argmax param = 103; 

optional ConcatParameter concat param = 104; 

optional ContrastiveLossParameter contrastive loss param = 105; 
optional ConvolutionParameter convolution param = 106; 


optional DataParameter data param = 107; 
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optional DropoutParameter dropout param = 108; 
optional DummyDataParameter dummy data param - 109; 
optional EltwiseParameter eltwise param = 110; 
optional ExpParameter exp param = 111; 

optional FlattenParameter flatten param = 135; 
optional HDF5DataParameter hdf5 data param - 112; 
optional HDF50utputParameter hdf5 output param = 113; 
optional HingeLossParameter hinge loss param - 114; 
optional ImageDataParameter image data param - 115; 
optional InfogainLossParameter infogain loss param = 
optional InnerProductParameter inner product param - 
optional LogParameter log param 三 134; 

optional LRNParameter lrn param = 118; 

optional MemoryDataParameter memory data param = 119; 
optional MVNParameter mvn param = 120; 

optional PoolingParameter pooling param = 121; 
optional PowerParameter power param = 122; 

optional PReLUParameter prelu param - 131; 

optional PythonParameter python param - 130; 
optional ReductionParameter reduction param - 136; 
optional ReLUParameter relu param — 123; 

optional ReshapeParameter reshape param = 133; 
optional SigmoidParameter sigmoid param - 124; 
optional SoftmaxParameter softmax param = 125; 
optional SPPParameter spp param = 132; 

optional SliceParameter slice param - 126; 

optional TanHParameter tanh param - 127; 

optional ThresholdParameter threshold param - 128; 


optional WindowDataParameter window data param = 129; 


8.2.2 Layer 是 怎样 建成 的 


Layer 头 文件 位 于 include/caffe/layer.hpp 中 , 内 容 如 下 : 


template «typename Dtype» 
class Layer ( 
public: 
// 显 式 构造 函数 ， 从 LayerParameter 对 象 中 加 载 配置 


explicit Layer(const LayerParameter& param 
WAN 


) 
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layer param (param), is shared (false) { 
phase = param.phase();// 设置 当前 阶段 (训练 /预测 ) 
if (layer param .blobs size() > 0) { 
blobs .resize(layer param .blobs size()); // 4% layer param 设置 本 身 Blob 对 象 个 数 ， 
并 依次 将 每 个 Blob 对 象 尺寸 调整 为 与 layer param 中 的 Blob 尺寸 一 至 
for (int i = 0; i < layer param .blobs size(); ++i) | 
blobs [i].reset(new Blob<Dtype>()); 


blobs [i]-»FromProto(layer param .blobs(i)); 


} 
virtual -Layer() {} // 虚 析 构 函 数 
// 配置 函数 ， 实 现 常 用 层 配置 接口 ， 不 可 被 覆盖 
void SetUp(const vector<Blob<Dtype>*>& bottom, 
const vector<Blob<Dtype>*>& top) { 
InitMutex(); 
CheckBlobCounts (bottom, top); // 检查 Blob 


LayerSetUp (bottom, top); // 与 层 类 型 相关 的 配置 过 程 
Reshape(bottom, top); // & Top Blob 变形 
SetLossWeights (top); // 设置 损失 权 值 因 子 Blob 





// 层 配 置 ( 虚 ) 函数 ， 做 特定 类 型 层 相 关 的 配置 ， 由 该 类 型 层 自己 实现 
virtual void LayerSetUp(const vector<Blob<Dtype>*>& bottom, 


const vector«Blob«Dtype»*»& top) I) 


// 在 数据 并 行 中 ， 一 个 Layer 是 否 被 多 个 Net 共享 。 在 默认 情况 下 ， 只 有 数据 读 取 层 (DataLayer) 可 被 多 个 
Net 共享 ， 其 他 层 则 不 能 

virtual inline bool ShareInParallel() const ( return false; } // 默认 为 否 

// 返 同 该 层 实际 上 是 和 否 被 其 他 Net 共享 。 当 ShareInParallel 1() 返 回 Erue， 以 及 多 个 GPU 被 使 用 ， 网 络 处 于 
训练 阶段 时 ， 该 函数 返回 true 

inline bool IsShared() const { return is shared ; ) 

// 设置 该 层 实际 上 是 备 被 其 他 Nec 共享 ， 条 件 同 上 

inline void SetShared(bool is shared) | 

CHECK(ShareInParallel() || !is shared) 

<< type() << "Layer does not support sharing."; 


is shared = is shared; 


// 変形 ( 纯 虚 ) 函数， 修改 Top Blob 以 及 内 部 Blo5 缓冲 区 的 形状 
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virtual void Reshape(const vector<Blob<Dtype>*>& bottom, 
const vector<Blob<Dtype>*>& top) = 0; 
// 前 向 传播 函数 ， 给 定 Bottom Blob, 計算 Top Blob 和 Loss， 返 回 值 为 当前 层 loss 
// 该 函数 会 调用 相应 设备 包装 函数 ， 如 Forward cpu 8È Forward gpu 来 实现 真正 的 计算 过 程 。 如 果 该 层 有 任 
// SARS Loss weights 参数 ， 那 么 包装 函数 会 计算 并 返回 loss 
// 派生 类 应 该 实现 Forward cpu 和 Forward gpu (可 选 ) 
inline Dtype Forward(const vector<Blob<Dtype>*>& bottom, 
const vector<Blob<Dtype>*>& top); 
// 反问 传播 函数 ， 给 定 Top Blob 误差 梯度 ， 计 算 Bottom Blob 误差 梯度 
// 参数 说 明 : 
// top Top Blob, 其 giff 域 包含 来 自 上 一 层 的 误差 梯度 
// propagate down 一 多 路 开关 ， 与 Bottom Blob 矢量 维度 相同 ， 每 个 值 表示 是 否 将 误差 梯度 传递 到 对 应 的 
Bottom Blob 
// bottom—Bottom Blob, H diff 域 需要 由 该 函数 计算 得 到 
// 该 函数 会 调用 相应 设备 包装 函数 ， 如 Backward cpu 或 Backward gpu 来 实现 真正 的 计算 过 程 ， 由 派生 类 负 
ot Sc BL 
inline void Backward(const vector<Blob<Dtype>*>& top, 
const vector«bool»& propagate down, 
const vector<Blob<Dtype>*>& bottom); 
// 返回 Layer 内 部 可 训练 的 权 值 、 偏 置 项 Blob 向 量 
vector<shared ptr<Blob<Dtype>>>& blobs() { 
return blobs ; 
} 
// 返回 Layer 初始 化 参数 Crh ProtoBuffer 提供) 
const LayerParameter& layer param() const { return layer param ; ] 
// #& Layer 初始 化 参数 写 入 ProtoBuffer 缓冲 区 
virtual void ToProto(LayerParameter* param, bool write diff = false); 
// 返回 与 某 个 rop Blob 相关 的 标量 10ss ffi 
inline Dtype loss(const int top index) const { 
return (loss .size() » top index) ? loss [top index] : Dtype(0); 
} 
// 设置 与 某 个 Top Blob 相关 的 标量 loss fÉ 
inline void set loss(const int top index, const Dtype value) { 
if (loss .size() <= top index) | 
loss .resize(top index + 1, Dtype(0)); 
} 


loss [top index] = value; 


// 返回 层 类 型 字符 串 ， 便 于 识别 ， 由 派生 类 负责 实现 
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virtual inline const char* type() const ( return ""; ] 

// 返回 该 Layer 需要 的 输入 Blob 数 目 , -1 表示 不 关心 。 由 派生 类 负责 实现 

virtual inline int ExactNumBottomBlobs() const | return -1; } 

virtual inline int MinBottomBlobs() const { return -1; } 

virtual inline int MaxBottomBlobs() const { return -1; } 

// 返回 该 rayer 需要 的 输出 Blob 数 目 , -1 表示 不 关心 。 由 派生 类 负责 实现 

virtual inline int ExactNumTopBlobs () const [ return -1; ] 

virtual inline int MinTopBlobs() const { return -1; ) 

virtual inline int MaxTopBlobs() const { return -1; } 

// 返回 该 ayer 是 否 有 相同 的 输入 /输出 Blob， 由 派生 类 负责 实现 

virtual inline bool EqualNumBottomTopBlobs() const ( return false; ) 

// 返回 是 否 允 许 匿 名 Top Blob， 即 由 该 Layer 自动 创建 。 若 为 真 ， 在 Net: : Init () 函数 中 会 创建 足够 多 的 匿 
名 Top Blob 来 满足 该 Layer ExactNumTopBlobs () MinTopBlobs() 需求 














virtual inline bool AutoTopBlobs() const { return false; } 


// 返回 某 些 Bottom Blob 是 否 允 许 强制 反 向 传播 ， 如 果 AllowForceBackward(i) == false， 将 会 忽略 
force backward 设 定 


virtual inline bool AllowForceBackward(const int bottom index) const 1 


return true; 


// 指定 该 rayer 是 否 计算 相对 权 值 或 偏 置 项 的 梯度 ， 具体 相对 谁 由 param_id 指定 
inline bool param propagate down(const int param id) | 

return (param propagate down .size() > param id) ? 

param propagate down [param id] : false; 

} 
// 设置 该 Layer Fe tb SERDSEBUB he HN BE, SAE param_id 指定 
inline void set param propagate down(const int param id, const bool value) { 

if (param propagate down .size() <= param id) { s 

param propagate down .resize(param id + 1, true); 
} 


param propagate down [param id] = value; 


protected: 
LayerParameter layer param ; // 保存 Layer 参数 的 ProtoBuffer 対象 


Phase phase ; // Layer 当前 所 处 阶段 ， 可 选 TRAIN 或 TEST 
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vector«shared ptr<B1ob<Dtype>>> blobs ; // Layer 内 部 权 值 或 偏 置 项 ， 以 Blob 方式 组 织 


vector«bool» param propagate down ; // 标志 位 ， 是否 计算 对 应 参数 的 误差 梯度 
vector«Dtype» loss; // 标志 位 ,在 目标 函数 中 ， 是 否 每 个 Top Blob 都 有 非 零 权重 


// 下面 4 个 函数 ， 我 们 会 在 各 个 Layer 派生 类 中 经 常 看 到 
virtual void Forward cpu(const vector<Blob<Dtype>*>& bottom, 
const vector<Blob<Dtype>*>& top) = 0; 


virtual void Forward gpu (const vector«Blob«Dtype»*»& bottom, 
const vector<Blob<Dtype>*>& top) { 
// LOG(WARNING) «« "Using CPU code as backup."; 


return Forward cpu(bottom, top); 


virtual void Backward cpu(const vector<Blob<Dtype>*>& top, 
const vector<bool>& propagate down, 


const vector<Blob<Dtype>*>& bottom) = 0; 


virtual void Backward gpu(const vector<Blob<Dtype>*>& top, 
const vector<bool>s propagate down, 
const vector<Blob<Dtype>*>& bottom) { 
// LOG(WARNING) << “Using CPU code as backup."; 
Backward cpu(top, propagate down, bottom); 
} 
// 校 验 输 入 /输出 Blob 数目 是 否 满足 Layer 要 求 
virtual void CheckBlobCounts(const vector«Blob«Dtype»*»& bottom, 
const vector«Blob«Dtype»*»5& top) { 
if (ExactNumBottomBlobs() >= 0) { 
CHECK EQ(ExactNumBottomBlobs(), bottom.size()) 
<< type() << " Layer takes " << ExactNumBottomBlobs () 
<< " bottom blob(s) as input."; 
! 
if (MinBottomBlobs() »- 0) | 
CHECK LE(MinBottomBlobs(), bottom.size()) 
<< type() << " Layer takes at least " << MinBottomBlobs() 


<< " bottom blob(s) as input."; 
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} 
if (MaxBottomBlobs() >= 0) { 
CHECK GE(MaxBottomBlobs(), bottom.size()) 
<< type() << " Layer takes at most " << MaxBottomBlobs() 
«« " bottom blob(s) as input."; 
) 
if (ExactNumTopBlobs() »- 0) ( 
CHECK EQ(ExactNumTopBlobs(), top.size()) 
<< type() «« " Layer produces " «« ExactNumTopBlobs() 
<< " top blob(s) as output."; 
} 
if (MinTopBlobs() >= 0) { 
CHECK LE(MinTopBlobs(), top.size()) 
<< type() << " Layer produces at least " << MinTopBlobs () 
<< " top blob(s) as output."; 
} 
if (MaxTopBlobs() >= 0) { 
CHECK GE (MaxTopBlobs(), top.size()) 
<< type() << " Layer produces at most " << MaxTopBlobs () 
<< " top blob(s) as output."; 
} 
if (EqualNumBottomTopBlobs()) { 
CHECK EQ(bottom.size(), top.size()) 
<< type() << " Layer produces one top blob as output for each " 
<< "pottom blob input."; 
} 


// 该 函数 在 Layer 的 Setup 函数 中 被 调用 ， 主 要 目的 是 初始 化 与 Top Blob 相关 的 loss 权重 ， 放 到 Top Blob 
// Waitt 域 , 实际 由 Forward() 计 算 loss 函数 


// loss weight == 0, 表示 当 前 层 不 参与 1oss 函数 计算 ， 大 部 分 Layer 属于 这 一 类 
// loss weight == 1, 表示 当前 层 参 与 loss 函数 计算 ,损失 层 (LossLayer) 属于 这 一 类 
inline void SetLossWeights(const vector<Blob<Dtype>*>& top) | 
// 从 ProtoBuffer 对 象 中 获得 Layer 参数 ， 这 里 需要 用 loss weight 参数 
const int num loss weights = layer param .loss weight size(); 
if (num loss weights) ( // 如果 ProtoBuffer 中 存在 至 少 一 个 1oss_weight 参数 
// loss weight 参数 个 数 应 当 与 Top Blob 数目 相同 ， 或 者 不 要 loss weight 参数 
CHECK EQ(top.size(), num loss weights) «« "loss weight must be " 
"unspecified or specified once per top blob."; 
// 遍历 每 个 Top Blob 
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for (int top id = 0; top id < top.size(); -^*top id) | 
// M ProtoBuffer 对 象 拿 到 loss weight 实际 值 (0 或 者 1) 
const Dtype loss weight = layer param .loss weight(top id); 
// 车 为 0， 跳 过 
if (loss weight == Dtype(0)) | continue; } 
// 著 不 为 0， 则 对 网 络 做 相关 设置 
this-»set loss(top id, loss weight); // 本 地 记录 1oss weight ffi 
const int count = top[top id]--»count(); 
Dtype* loss muitiplier = top[top id]-»mutable cpu diff(); 


caffe set(count, loss weight, loss multiplier); // 将 loss weight ffl'jX Top Blob 
的 QifE 域 ， 传 递 到 其 他 需要 使 用 的 地 方 ， 实 现 远 程 同步 


} 


private: 
bool is shared ; // Wes, WWE Layer 是 否 被 其 他 Nec 共享 


shared ptr<boost::mutex>forward mutex ;// 如 果 该 Layer 被 共享 , 则 需要 该 信号 量 保证 顺序 执行 forward 
void InitMutex(); // 初始 化 forward mutex_ 

void Lock(); // WM 

void Unlock(); // 解锁 

DISABLE COPY AND ASSIGN(Layer); // 禁用 拷贝 构造 函数 和 赋值 运算 函数 


}; // class Layer 


// 前 向 传播 函数 、 后 向 传播 函数 包装 。 不 需要 修改 这 两 个 函数 
// 使 用 时 只 需 在 派生 类 中 改写 Forward cpu. Forward gpu、Backward cpu. Backward gpu 
template «typename Dtype» 
inline Dtype Layer«Dtype»::Forward(const vector<Blob<Dtype>*>& bottom, 
const vector<Blob<Dtype>*>& top) 1 
// 加 锁 ， 防 止 其 他 Nec 使 用 
Lock(); 
Dtype loss - 0; 
Reshape (bottom, top); 
switch (Caffe::mode()) ( // 判断 计算 设备 
case Caffe::CPU: // 在 CPU 上 执行 Forward 计算 
Forward cpu(bottom, top); // 调用 CPU 版 本 的 Forward AM 
// 还 没完 ， 要 计算 loss OMRE WIT) 
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if (!this->loss(top_id)) { continue; } 
const int count = top[top id]-»count(); 
const Dtype* data = top[top id]-»cpu data(); // 项 为 ossLayer， 则 已 经 通过 Forward M 
数 计算 出 全 局 损失 函数 ， 放 在 Top Blob data W 
const Dtype* loss weights = top[top id]-»cpu diff(); // #loss_ weight 不 为 0， 则 已 经 
在 SetLossWeights 函数 中 将 loss 权重 放 在 To5 Blob diff 域 
loss += caffe cpu dot(count, data, loss weights); // 计算 加 权 后 的 loss 之 和 ， 得 到 标量 
loss fii 
} 
break; 
case Caffe::GPU: 
Forward gpu(bottom, top); 
#ifndef CPU ONLY 
for (int top id = 0; top id < top.size(); ++top_id) 1 
if (!this-»loss(top id)) ( continue; } 
const int count = top[top id]-»count(): 
const Dtype* data = top[top id]-»gpu data(); 
const Dtype* loss weights = top[top id]-»gpu diff(); 
Dtype blob loss = 0; 
caffe gpu dot(count, data, loss weights, &blob loss); 
loss *- blob loss; 
i 
fendif 
break; 
default: 
LOG (FATAL) << "Unknown caffe mode."; 
} 
Unlock(); // 解锁 ， 其 他 Net 可 以 使 用 
return loss; 
} 
// 反问 传播 函数 ， 直 接 调 用 对 应 设备 函数 
template <typename Dtype> 
inline void Layer<Dtype>::Backward(const vector<Blob<Dtype>*>& top, 
const vector<bool>& propagate down, 
const vector<Blob<Dtype>*>& bottom) { 
switch (Caffe::mode()) | 
case Caffe::CPU: 
Backward cpu(top, propagate down, bottom); 
break; 


case Caffe::GPU: 
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Backward gpu(top, propagate down, bottom); 
break; 

default: 
LOG(FATAL) << "Unknown caffe mode."; 


// 将 层 配置 参数 序列 化 为 ProtoBuffer 
template <typename Dtype> 
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void Layer«Dtype»::ToProto(LayerParameter* param, bool write diff) { 


param->Clear(); 
param-»CopyFrom(layer param ); 


param-»clear blobs(); 


for (int i = 0; i < blobs .size(); ++i) ( // 权 值 和 偏 置 项 也 会 保存 


blobs [i]-»ToProto(param-»add blobs(), write diff); 


Layer 源 文件 位 于 src/caffe/layercpp 中 , 内 容 如 下 : 


#include <boost/thread.hpp> 
#include "caffe/layer.hpp" 


namespace caffe { 

// 初始 化 信号 量 

template «typename Dtype» 

void Layer«Dtype»::InitMutex() | 
forward mutex .reset(new boost::mutex()); 

} 

// 加 锁 

template «typename Dtype» 

void Layer«Dtype»::Lock() ( 
if (IsShared()) | 


forward mutex -»2lock(); 


) 

// 解锁 

template «typename Dtype» 

void Layer<Dtype>::Unlock() [ 
if (IsShared()) { 


forward mutex -»unlock(); 
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INSTANTIATE CLASS (Layer); 


) // namespace caffe 


可 见 Layer 大 部 分 函数 并 没有 实现 ， 只 有 虚 函 数 ， 真 正 的 实现 都 在 派生 类 中 。 具 体 代码 可 
以 进一步 阅读 src/caffe/layers/*.cpp。 





在 使 用 Layer 之 前 ,需要 先 包含 头 文件 “#include <caffe/layer.hpp>”, 再 通过 “using namespace 
caffe;” 使 用 命名 空间 caffe。 如 果 代 码 中 试图 创建 Layer 对 象 ， 编 译 时 会 报错 : 


error: cannot declare variable ‘a’ to be of abstract type ‘caffe::Layer<float>’ 





这 是 因为 Layer 类 是 一 个 虚 基 类 ， 不 能 直接 创建 对 象 。 如 果 需 要 了 解 更 多 的 关于 虚 基 类 的 
言 息 ， 请 参阅 参考 资料 [2]。 


8.3 Net 





Net 在 Caffe 中 代表 一 个 完整 的 CNN 模型 ， 含 若干 Layer 实例 。 前 面 我 们 已 经 在 第 5 
天 内 容 中 看 到 用 ProtoBuffer 文本 文件 (prototxt) in 吉 构 如 LeNet、AlexNet, ixJt 
结构 反映 在 Caffe 代码 实现 上 就 是 一 个 Net 对 象 ,通过 本 节 的 学 习 , 读者 会 发 现 Net 是 相对 Blob. 
Layer 更 为 复杂 的 设计 ， 需 要 沉 住 气 ， 细 细 阅 读 。 


8.3.1 Net 基本 用 法 


Net 是 一 张 图 纸 ， 对 应 的 描述 文件 为 *.prototxt， 我 们 选择 Caffe 自 带 的 CaffeNet 模型 描述 文 
件 ， 位 于 models/bvle reference_caffenetdeploy.prototxt。 将 该 文件 拷贝 到 当前 工作 目录 下 。 





编写 测试 代码 net demo.cpp 如 下 : 


#include <vector> 
#include <iostream> 
#include <caffe/net.hpp> 
using namespace caffe; 
using namespace std; 


int main (void) 


ww ai bbt. com [1 H1 B. D] D] 


第 8 天 Caffe 数据 结构 137 





std::string proto("deploy.prototxt"); 
Net<float> nn(proto, caffe::TEST); 
vector«string» bn = nn.blob names(); // 获取 Net 中 所 有 Blob 对 象 名 
for(int i = 0; i € bn.size(); i++) 
{ 
cout««"Blob #"<<i<<" : "<<bn[i]<<endl; 
} 


return 0; 


编译 : 


$ g EES ーO netapp net demo.cpp -ISCAFFE ROOT/include -D CPU ONLY =I 
$CAFFE_ROOT/.build_release/src/ —LS$CAFFE_ROOT/build/lib -lcaffe -lglog -lboost system 
-lprotobuf 


运行 : 
$ ./netapp 
WARNING: Logging before InitGoogleLogging() is» written to STDERR 
I0515 17:13:00.473947 45913 net.cpp:49] Initializing net from parameters: 
name: "CaffeNet" 
gy eese 大 部 分 内 容 我 们 都 见 过 了 
I0515 17:13:00.591897 45913 net.cpp:274] Network initialization done. 
#### Blob Names ##### 
Blob #0 : data 
Blob #1 : convi 
Blob #2 : pooll 
Blob #3 : norml 
Blob #4 : conv2 
Blob #5 : pool2 
Blob #6 : norm2 
Blob #7 : conv3 
Blob 48 : conv4 
Blob #9 : conv5 
B 





lob #10 : pool5 
Blob #11 : fc6 
Blob #12 : fc7 
Blob #13 : fc8 
Blob #14 : prob 
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#### Layer Names ##### 
Layer #0 : data 
Layer #1 : convl 
Layer 42 : relul 
Layer #3 : pooll 
Layer #4 : norml 
Layer #5 : conv2 
Layer #6 : relu2 
Layer #7 : pool2 
Layer #8 : norm2 
Layer $9 : conv3 
Layer #10 : relu3 
Layer #11 : conv4 
Layer #12 : relu4 
Layer 413 : conv5 
Layer #14 : relu5 
Layer #15 : pool5 
Layer #16 : fc6 
Layer #17 : relu6 
Layer #18 : drFop5 
Layer #19 : fc7 
Layer #20 : relu7 
Layer #21 : drop7 
Layer #22 : fc8 
Layer #23 : prob 


通过 上 面 简单 的 例子 ， 我 们 可 以 看 到 Net 中 既 包括 Layer 对 象 ， 又 包括 Blob 対象 。 其 中 
Blob 对 象 用 于 存放 每 个 Layer 输入 /输出 中 间 结 果 ，Layer 则 根据 Net 描述 对 指定 的 输入 Blob 进 
行 某 些 计算 处 理 〈 卷 积 、 下 采样 、 全 连接 、 非 线性 变换 、 计 算 代价 函数 等 ) 输出 结果 放 到 指定 
的 输出 Blob 中 。 输 入 Blob 和 输出 Blob 可 能 为 同一 个 。 所 有 的 Layer 和 Blob 対象 都 用 名 字 区 
分 , 同名 的 Blob 表示 同一 个 Blob 対象 , 同名 的 Layer 表示 同一 个 Layer 対象 。 而 Blob 和 Layer 
同名 则 不 代表 它们 有 任何 直接 关系 。 


我 们 可 以 通过 has blob(). has_layer() 函 数 来 查询 当前 Net 对 象 是 否 包含 指定 名 字 的 Blob 或 
Layer 对 象 ， 如 果 返 回 值 为 真 ， 则 可 以 进一步 调用 blob by name(0、layer_by_name() 函 数 直接 获 
取 相 应 的 Blob 或 Layer 指針 , 进行 一 些 操作 (如 提取 某 层 计 算 输 出 特征 或 某 个 Blob 中 的 权 值 )。 
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8.3.2 ”数据 结构 描述 


依然 先 通过 caffe.proto 一 筑 “ 网 络 ” 的 本 质 。 


message NetParameter | 
optional string name = 1; // 网 络 名 称 
repeated string input = 3;// 网 络 的 输入 Blob 名 称 ， 可 以 有 多 个 Blob 
repeated BlobShape input shape = 8;// MA Blob 的 维度 信息 
repeated int32 input dim = 4;// 旧版 的 维度 信息 
// 网 络 是 否 强 制 每 个 层 执行 后 向 传播 计算 。 如 果 设 置 为 false， 那 么 是 否 执行 后 向 传播 计算 由 网 络 结构 、 学 习 速 
率 自动 确定 
optional bool force backward = 5 [default = false]; 
// 网 络 的 当前 状态 (包括 phase. level 以 及 stage) 
optional NetState state - 6; 
// 在 返 行 Net : :Forward、Net : :Backward、Net: :Update 时 是 否 打印 结果 的 调试 信息 
optional bool debug info - 7 [default - false]; 
// 组 成 Net 的 所 有 层 ， 每 个 层 配 置 都 包括 连接 属性 与 行为 ， 由 LayerParameter 定义 
repeated LayerParameter layer = 100; // ID WX 100， 这 样 层 描述 会 置 于 未 尾 
// 已 淘汰 


repeated VlLayerParameter layers = 2; 





看 似 很 短 的 proto 描述 ， 实 际 上 对 应 的 真实 网 络 prototxt 可 以 很 长 很 长 ， 关 键 在 于 可 重复 多 
炊 出 現 的 LayerParameter layer 这 个 字段 。 其 他 字段 的 功能 基本 都 是 辅助 网 络 运 行 的， 在 代码 中 
会 看 到 更 多 的 细节 。 


z 





8.3.3 Net 是 怎样 绘 成 的 


我 们 将 Blob 比 作 Caffe 1447, Layer 比 作 Caffe 的 墙 面 ， 那 么 Net 更 像 是 工匠 手中 的 图 纸 ， 
描述 了 每 个 墙 面 应 当 出 现 的 位 置 ， 这 样 设 计 的 房屋 才 足 够 牢固、 抗震 。 为 了 达到 这 个 目的 ，Net 
oa Layer, Blob 的 数据 结构 。 在 表 8-1 中 提前 向 大 家 公布 一 下 这 些 数据 
结构 的 名 字 ， 和 免得 看 到 时 面 生 ， 错 过 与 它们 打交道 的 机 会 。 


























表 8-1 Net 中 很 有 必要 认识 的 几 个 名 字 








layer names - 记录 Net prototxt 中 出 现 的 每 个 Layer 的 名 称 











layer names index - 记录 Net OSA TOT Layer 名 称 与 顺序 索引 的 对 应 关系 
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A 
n 





layer need backward - 





记录 每 个 Layer 是 否 青 要 反 向 传播 过 程 





blobs - 


记录 Net 中 所 有 Blob 





bottom vecs | 


记录 每 个 Blob 名 称 
记录 每 个 Blob 名 称 与 顺序 索引 的 对 应 关系 


记录 每 个 Blob 是 和 否 需 要 反 向 传播 过 程 





blobs_ 的 影子 ， 记 录 每 个 Layer 的 输入 Blob 





bottom id vecs_ 


bottom need backward _ 


top vecs _ 


top id vecs_ 


与 bottom veces HK, HE Tf blobs 中 定位 每 个 Layer 的 每 个 输入 Blob 








与 bottom_vecs 关联 ， 标 志 每 个 Blob 是 否 再 要 反问 传播 过 程 
blobs 的 影 季 ， 记 录 每 个 Layer 的 输出 Blob 


与 top_vecs 关联 ， 用 于 在 blobs 中 定位 每 个 Layer 的 每 个 输出 Blob 





blob loss weights - 


net input blob indices _ 


Net 中 每 个 Blob 对 损失 函数 的 投票 因子 。 一 般 损 失 层 为 1， 其 他 层 为 0 
Net 输入 Blob 在 blobs 中 的 索引 





net output blob indices _ 





Net 输出 Blob 在 blobs 中 的 索引 





net input blobs _ 


Net 输入 Blob 





net output blobs - 


Net 输出 Blob 





Net 权 值 Blob， 用 于 存储 网 络 权 值 





param display names - 
learnable params - 


params lr. 


Net 中 权 值 Blob 的 和 名称 





Net 中 可 训练 的 权 值 Blob 





learnable_params_ 中 每 个 元 素 的 学 习 速 率 倍 乘 因子 





has params lr_ 


params weight decay _ 


标志 leamable_params "| Bj 6 e f £4 752) 8A (RIAL F 


learnable_params_ 中 每 个 元 素 的 权 值 衰减 倍 乘 因 子 





has params decay | 








标志 learnable params "| REP 7c 3 Ae FT AT BUE eg da (ote D] T7 


看 到 上 面 有 两 类 Blob: 以 param 开头 的 权 值 Blob 和 以 blob 开头 的 Layer 输入 /输出 Blob. 
它们 虽然 都 是 Blob 类 型 ， 但 在 网 络 中 的 地 位 截然 不 同 。 权 值 Blob 会 随 着 学 习 过 程 而 更 新 ， 
属于 “模型 ” Layer 输入 /输出 Blob 则 只 会 随 网 络 输入 变化 ， 归 属于 “数据 ” 深度 学 习 的 目的 
就 是 不 断 从 “数据 ”中 获取 知识 ， 在 储 到 “模型 ”中 ， 应 用 于 后 来 的 “数据 ”。 


Net 声明 位 于 include/caffe/net.hpp 中 ， 内 容 如 下 : 


template <typename Dtype> 
class Net { 


public: 
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// 显 式 构造 函数 
explicit Net (const NetParameter& param, const Net* root net = NULL); 
explicit Net(const string& param file, Phase phase, 
const Net* root net - NULL); 
// 析 构 函数 


virtual ~Net() {} 


// Fi NetParameter 对 象 初始 化 Net 

void Init(const NetParameter& param); 

// 运行 前 向 传播 ， 输 入 Blob 已 经 预先 填充 

const vector<Blob<Dtype>*>& ForwardPrefilled (Dtype* loss = NULL); 

// Net 前 向 传播 的 几 种 形式 

Dtype ForwardFromTo(int start, int end); 

Dtype ForwardFrom(int start); 

Dtype ForwardTo(int end); 

const vector<Blob<Dtype>*>& Forward(const vector<Blob<Dtype>* >& bottom, 

Dtype* loss = NULL); // 指定 输入 Blob 进行 前 向 传播 ， 返 回 输出 Blob 

string Forward(const string& input blob protos, Dtype* loss = NULL); // 指定 序列 化 的 输 

A BlobProtoVector 进行 前 向 传播 ， 返 回 序列 化 的 输出 BlobProtoVector 


// 清 零 所 有 权 值 的 diff 域 ， 应 在 反 向 传播 之 前 运行 
void ClearParamDiffs(); 
// 儿 种 不 同形 式 的 Net 反 向 传播 ， 无 须 指定 输入 /输出 Blob， 因 为 在 前 向 传播 过 程 中 已 经 建立 连接 
void Backward(); 
void BackwardFromTo(int start, int end); 
void BackwardFrom(int start); 
void BackwardTo(int end); 
// 对 Net 中 所 有 Layer 自 底 向 上 进行 变形 ， 无 须 运 行 一 次 前 向 传播 就 可 以 计算 各 层 所 需 的 Blob 尺寸 
void Reshape(); 
// 前 向 传播 + 反 向 传播 ， 输 入 为 Bottom Blob, Mii loss 
Dtype ForwardBackward(const vector<Blob<Dtype>* >& bottom) { 
Dtype loss; 
Forward(bottom, &loss); 
Backward(); 
return loss; 
} 
// 根据 已 经 (由 Solver) 准备 好 的 diff 值 更 新 网 络 权 值 
void Update(); 














void ShareWeights(); 
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// 从 一 个 已 训练 好 的 Nec 获取 共享 权 值 

void ShareTrainedLayersWith(const Net* other); 

void CopyTrainedLayersFrom(const NetParameter& param); 

void CopyTrainedLayersFrom(const string trained filename); 

void CopyTrainedLayersFromBinaryProto(const string trained filename); 
void CopyTrainedLayersFromHDF5(const string trained filename); 

// 序列 化 一 个 Net 到 ProtoBu£fer 

void ToProto (NetParameter* param, bool write diff = false) const; 

// 序列 化 一 个 Net 到 HDF5 


void ToHDF5(const string& filename, bool write diff = false) const; 


// 返回 网 络 名 称 

inline const string& name() const { return name ; } 

// 返回 一 组 Layer AM 

inline const vector<string>s layer names() const { return layer names ; } 

// 返回 一 组 Blob 名 称 

inline const vector<string>& blob names() const { return blob names ; } 

// 返回 blobs_ 

inline const vector<shared ptr<Blob<Dtype>>>& blobs() const { 
return blobs ; 

} 

// 返回 layers_ 

inline const vector<shared ptr<Layer<Dtype>>>& layers() const | 
return layers ; 

) 

// 返回 当前 阶段 TRAIN Pk TEST 

inline Phase phase() const { return phase ; } 

// 返回 每 个 Layer 的 Bottom Blob 

inline const vector<vector<Blob<Dtype>*>>& bottom Veds() const { 
return bottom vecs ; 

! 

// 返回 每 个 Layer 的 Top Blob 

inline const vector<vector<Blob<Dtype>*>>& top vecs() const | 
return top vecs ; 

} 

// 返回 每 个 Layer 的 Bottom Blob 是 否 需 要 反 向 传播 过 程 

inline const vector<vector<bool>>& bottom need backward() const { 


return bottom need backward ; 
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// 返回 每 个 Blob AMES loss 计算 
inline const vector<Dtype>& blob loss weights() const 1 
return blob loss weights ; 
} 
// 返回 每 个 Layer 是 耕 需 要 反问 传播 计算 
inline const vector«bool»& layer need backward() const | 
return layer need backward ; 
} 
// 返回 所 有 权 值 
inline const vector<shared ptr<Blob<Dtype>>>& params() const | 
return params ; - 
) 
// 返回 所 有 可 训练 权 值 
inline const vector<Blob<Dtype>*>& learnable params() const | 
return learnable params ; 
} 
// 返回 可 训练 权 值 的 学 习 速 率 倍 乘 因子 
inline const vector<float>& params lr() const { return params lr ; } 
inline const vector«bool»& has params lr() const ( return has params lr ; ) 
// 返回 可 训练 权 值 的 衰减 因子 
inline const vector<float>& params weight decay() const 1 
return params weight decay ; 
} 
inline const vector<bool>& has params decay() const | 
return has params decay ; 
) 
// 返回 Layer 名 称 与 向 量 下 标 映射 对 
const map<string, int>& param names index() const { 
return param names index ; 
} 
// 返回 权 值 所 有 者 
inline const vector<int>& param owners() const { return param owners ; | 
// 返回 输入 /输出 Blob 数目 
inline int num inputs() const ( return net input blobs .size(); ) 
inline int num outputs() const | return net output blobs .size(); } 
// 返回 输入 Blob 
inline const vector<Blob<Dtype>*>& input blobs() const { 


return net_input_blobs_; 
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// 返回 输出 Blob 

inline const vector«Blob«Dtype»*»& output blobs() const ( 
return net output blobs ; 

! 

// 返回 输入 Blob 下 标 

inline const vector<int>é input blob indices() const 1 
return net input blob indices ; 

} 

// 返回 输出 Blob 下 标 

inline const vector<int>& output blob indices() const | 
return net output blob indices ; 

} 

// 查找 当前 网 络 是 否 包含 某 一 名 称 Blob 

bool has blob(const string& blob name) const; 

// 如 果 人 包含 ， 那 么 就 请 把 它 找 出 来 

const shared ptr«Blob«Dtype»» blob by name(const string& blob name) const; 

// THOMAS Et LX HR Layer 

bool has layer(const string& layer name) const; 

// 如果 包含 , JN citt He HO 

const shared ptr«Layer«Dtype»^ layer by name (const string& layer name) const; 

/| WW debug info - l 





void set debug info(const bool value) | debug info = value; | 


// 下 面 这 些 函 数 是 Init 的 好 帮手 
// 过 滤 掉 用 户 指定 的 在 某 个 阶段 、 级 别 、 状 态 下 不 应 包含 的 Layer 
static void FilterNet(const NetParameter& param, 
NetParameter* param filtered); 
// 判断 网 络 状态 是 否 满足 网 络 规则 
static bool StateMeetsRule(const NetState& state, const NetStateRule& rule, 


const string& layer name); 


protected: 

// 为 网 络 追 加 一 个 ToP Blob 

void AppendTop(const NetParameter& param, const int layer id, 
const int top id, set<string>* available blobs, 
map<string, int>* blob name to idx); 

// 为 网 络 追 加 一 个 Bottom Blob 

int AppendBottom(const NetParameter& param, const int layer id, 


const int bottom id, set<string>* available blobs, 
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map<string, int»* blob name to idx); 


// 为 网 络 追加 一 个 权 值 Blob 
void AppendParam(const NetParameter& param, 


const int param id); 


/ 显示 输入 调试 信息 
void InputDebugInfo(const int layer id); 
// 显示 前 向 传播 调试 信息 
void ForwardDebugInfo(const int layer id); 
// 显示 反 向 传播 调试 信息 
void SackwardbsbusInfelconst int layer id); 
/ 显示 权 值 更 新 调试 信息 


void UpdateDebugInfo(const int param id); 


string name ; // 网 络 名 称 


Phase phase ; // 当前 阶段 (TRAIN st TEST) 


const int layer id, 


vector<shared ptr«Layer«Dtype»»» layers ; // 网 络 中 的 独立 层 


vector«string» layer names ; // 层 名 称 


map<string, int» layer names index ; // 层 名称 与 索引 映射 表 
vector<bool> layer need backward ; // 标记 某 个 层 是 否 需要 BE 


vector<shared ptr«Blob«Dtype»»» blobs ; // 层 与 层 中 间 传 递 数据 的 管道 


vector<string> blob names ; // Blob 名 称 


Map<string, int> blob names index ; // Blob 名 称 与 索引 映射 表 
vector<bool> blob need backward ; // 标记 某 个 Blob 是 否 需要 BP 
// bottom vecs 存放 每 个 层 的 输入 Blob， 实 际 上 它 并 不 是 这 些 Blob 的 所 有 者 〈 所 有 者 为 blobs_)， 只 是 


// 存放 了 指针 
vector<vector<Blob<Dtype>*>> bottom vecs ; 
vector<vector<int>> bottom id vecs ; 


vector«vector«bool»» bottom need backward ; 


// top vecs 存放 每 个 层 的 输出 Blob， 实 际 上 它 并 不 是 这 些 Blob 的 所 有 者 〈 所 有 者 为 blobs_)， 


// 指针 

vector<vector<Blob<Dtype>*>> top vecs ; 
vector«vector«int»» top id vecs ; 

// 每 个 Blob 对 全 局 损失 函数 (目标 函数 ) 的 页 献 权重 
vector«Dtype» blob loss weights ; 


vector<vector<int>> param _ id_ vecs 
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Vecter<int> param owners ; 

vector<string> param display names ; 

vector<pair<int, int>> param layer indices ; 

map<string, int» param names index ; 

// 网 络 输入 /输出 Blob 的 索引 

Vector<int> net input blob indices ; 

vector«int» net output blob indices ; 

vector<Blob<Dtype>*> net input blobs ; 

vector«Blob«Dtype»*» net output blobs ; 

// 网 络 权 值 

vector<shared_ptr<Blob<Dtype>>> params ; 

// 可 训练 的 网 络 权 值 

vector<Blob<Dtype>*> learnable params ; 

// 从 params fl|learnable params 的 映射 

// SER params [i] APA I, learnable param ids .size() == params .size() 以 及 
learnable params [learnable param ids [i]] == params [i] .get() 成立 


// 否则 ，params_[i] 只 是 一 个 共享 者 ，1learnabls params [learnable param ids_[i]] 给 出 了 它 的 所 
// 有 者 

vector«int» learnable param ids ; 

// 学 习 速 率 倍 乘 因子 

vector<float> params lr ; 

vector<bool> has params lr ; 

// 权 值 衰 减 因 子 

vector«float» params weight decay ; 

vector«bool» has params decay ; 

// 记录 网 络 占用 的 内 存 大 小 

size t memory used ; 

// 是 否 显示 调试 信息 

bool debug info ; < 

// 在 数据 并 行 条 件 下 ， 根 网 络 是 实际 有 效 网 络 ， 其 他 网 络 都 间接 引用 了 根 网 络 
const Net* const root net ; 


DISABLE COPY AND ASSIGN(Net); // 禁用 拷贝 构造 函数 、 赋 值 运算 函数 


我 们 今天 卖 个 关子 ，Net 具体 实现 代码 暂 不 公布 ， 等 到 合适 的 机 会 再 做 深入 分 析 。 


8.4 机 制 和 策略 


は お 


代码 读 到 这 里 





， 读 者 若 能 建立 如 下 观念 , 则 会 更 容易 接受 Caffe 中 Net/Layer/Blob 这 种 分 层 
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的 设计 模式 。 
在 我 们 生活 中 普遍 存在 但 又 最 容易 被 忽视 的 两 个 概念 是 .机制 和 策略 。 


一 般 来 说 ， 对 于 某 客观 事物 ， 机 制 回答 了 “ 它 能 二 只 ”这 个 问题 ， 策 略 则 回答 了 “ 它 怎么 
用 ”这 个 问题 。 

例 1: 插座 提供 电源 ， 是 一 种 提供 电能 的 机 制 ， 而 电视 机 、 洗 衣 机 、 电 冰箱 、 空 调 等 家 用 
电器 则 提供 使 用 电能 的 不 同 策略 ; 

例 2: 操作 系统 提供 计算 机 的 管理 机 制 ， 而 计算 机 用 户 提供 如 何 管理 计算 机 的 策略 ; 

例 3: 在 互联 网 应 用 中 ， 服 务 器 提供 特定 服务 机 制 ， 客 户 端 提供 使 用 服务 的 策略 ; 

例 4; 超市 提供 品类 齐全 的 商品 机 制 ， 而 消费 者 根据 自身 需求 提供 购买 策略 ; 

例 5; 数学 家 提供 远 辑 严谨 的 理论 机 制 ， 科 学 家 提供 使 用 理论 指导 实验 的 策略 ; 

例 6: 云 计算 厂商 提供 计算 资源 的 机 制 ， 而 生长 在 云 上 的 大 小 应 用 厂商 则 提供 使 用 计算 资 
源 的 不 同 策略 ; | 

例 7: 在 工作 中 ， 你 的 主管 掌握 部 门 运作 流程 中 绝 大 部 分 策略 ， 例 如 哪个 员工 具有 哪 方面 


能 力 ， 适 合 干 哪些 工作 ， 而 你 只 是 提供 机 制 的 螺丝 杀 ， 做 好 本 职工 作 即 可 (年轻 人 好 好 搬 砖 ， 
不 要 随便 问 大 战略 )。 


回 到 Caffe 源码 上 ， 我 们 发 现 Blob 提供 了 数据 容器 的 机 制 ， 而 Layer 则 通过 不 同 的 策略 使 
用 该 数据 容器 ， 实 现 多 元 化 的 计算 处 理 过 程 ， 同 时 又 提供 了 深度 学 习 各 种 基本 算法 ( 卷 积 、 下 
KR. HARBOE) 的 机 制 , Net 则 利用 Layer 这 些 机 制 ， 组 合 为 完整 的 深度 学 习 模 型 ， 提 
供 了 更 加 丰富 的 学 习 策 略 。 后 面 我 们 还 会 看 到 ，Net 也 是 一 种 机 制 。 


在 阅读 源码 时 ， 时 刻 记得 目标 是 希望 看 到 高 层 策略 ， 还 是 底层 机 制 ? 
85 Ram 
1. Net 初始 化 时 如 何 统计 所 需 的 存储 空间 ? 


2. 在 C+ 中 如 何 禁用 某 个 类 的 找 贝 构造 函数 与 赋值 运算 符 重 载 ? 


答案 尽 在 Caffe 源码 中 。 
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3. 学 习 其 他 深度 学 习 框 架 中 对 应 的 数据 结构 ， 了 解 其 提供 了 哪些 机 制 。 
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第 x 
Caffe I/O 模块 


今天 我 们 学 习 Caffe 的 VO 模块 ， 即 与 数据 打交道 的 模块 。 


也 许 读者 还 记得 ， 我 们 在 运行 Caffe 例 程 前 ， 首 先 需 要 将 原始 数据 转换 为 LMDB 格式 ， 训 
练 网 络 时 则 需要 由 数据 读 取 层 (DataLayer) 不断 地 LMDB 读 取 数据 ， 送 入 后 续 卷 积 、 下 采样 
等 计算 层 。 俗 话说 ,“ 民 以 食 为 天 ”，Caffe IO 模块 的 效率 直接 影响 到 处 理 效果 。 


9.1 ”数据 读 取 层 


Caffe 数据 读 取 层 (DataLayer) 是 Layer 的 派生 类 。 | 除了 读 取 LMDB、LEVELDB 之 外 ,也 
可 以 从 原始 图 像 直 接 读 取 (ImageDataLayer)。 


9.1.1 数据 结构 描述 


message DataParameter [ 


// 输入 数据 使 用 的 DB 类 型 


enum DB ( 
LEVELDB = 0; // 使 用 LEVELDB 
LMDB = 1; // 使 用 LMDB 


} 

// 源 数据 的 路 径 

optional string source = 1; 

// 一 个 批量 数据 包含 的 图 片 数 日 

optional uint32 batch size = 4; 

// 随机 跳 过 若干 图 片 ， 跳 跃 数目 为 rand skip * rand(0, 1) 
optional uint32 rand skip = 7 [default = 0]; 
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// 默认 输入 数据 使 用 DB 类 型 ， 默 认为 LEVELDB 

optional DB backend - 8 [default = LEVELDB]; 

// scale. mean file. crop size. mirror 均 为 旧版 参数 ， 现 已 转移 到 TransformationParameter 
optional float scale = 2 [default - 1]; 

optional string mean file = 3; 

optional uint32 crop size = 5 [default = 0]; 

optional bool mirror - 6 [default - false]; 

// 强制 编码 图 像 为 三 通道 彩色 图 像 

optional bool force encoded color = 9 [default = false]; 
// 预 取 队列 【预先 放 到 主机 内 存 中 的 批量 数 ， 默 认为 4 个 Batch 
optional uint32 prefetch = 10 [default = 4]; 


9.1.2 ”数据 读 取 层 实现 


数据 读 取 层 声明 位 于 include/caffe/data layers.hpp 中 ， 如 果 需 要 单独 使 用 该 层 ， 则 应 包含 这 
个 头 文件 。 
// 基本 数据 层 ， 派 生 于 Layer 
template «typename Dtype> 
class BaseDataLayer : public Layer<Dtypé> { 
public: 
// 显 式 构造 函数 
explicit BaseDataLayer(const LayerParameter& param); 
// 层 配 置 ， 实 现 通用 层 配置 功能 ， 之 后 调用 DataLayerSetUp 进行 数据 读 取 层 的 特别 配置 
virtual void LayerSetUp(const vector<Blob<Dtype>*>& bottom, 
const vector<Blob<Dtype>*>é& top); 
virtual void DataLayerSetUp(const vector<Blob<Dtype>*>& bottom, 
const vector<Blob<Dtype>*>& top) {} ・ 
// 数据 读 取 层 应 被 多 个 并 行 求解 器 共享 
virtual inline bool ShareInParallel() const { return true; } 
// 数据 读 取 层 没有 Bottom Blob， 变 形 操作 很 简单 
virtual void Reshape(const vector<Blob<Dtype>*>& bottom, 
const vector<Blob<Dtype>*>& top) {} 
// 反问 传播 函数 不 需要 做 任何 操作 
virtual void Backward cpu(const vector<Blob<Dtype>*>& top, 
const vector<bool>& propagate down, const vector<Blob<Dtype>*>& bottom) {} 
virtual void Backward gpu(const vector<Blob<Dtype>*>& top, 


const vector<bool>& propagate down, const vector<Blob<Dtype>*>& bottom) {} 
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protected: 
// 数据 预 处 理 变换 器 参数 
TransformationParameter transform param ; 
// 数据 预 处 理 变换 器 
shared ptr«DataTransformer«Dtype»» data transformer ; 
// 是 否 和 输出 标签 数据 
bool output labels ; 
b 
// 批量 数据 ， 用 于 存放 数据 读 取 层 输出 
template «typename Dtype> 
class Batch { 
public: 
// 包含 两 个 Blob: data 用 干 存 放 園 片 数 据 , label 用 于 存放 标签 
Blob«Dtype» data , label ; 
he 
// 带 预 取 功 能 的 数据 读 取 层 ， 派 生 于 BaseDataLayer fll InternalThread 
template <typename Dtype> 
class BasePrefetchingDataLayer 
public BaseDataLayer«Dtype», public InternalThread ( 
public: 
// 显 式 构造 函数 
explicit BasePrefetchingDataLayer(const LayerParameter& param); 
// 层 设 置 函数 
void LayerSetUp(const vector<Blob<Dtype>*>& bottom, 
const vector<Blob<Dtype>*>& top); 
// 前 向 传播 
virtual void Forward cpu(const vector<Blob<Dtype>*>& bottom, 
const vector<Blob<Dtype>*>& top); 
// 反 向 传播 
virtual void Forward gpu(const Vector<B1ob<DtyPe>*>& bottom, 


const vector<Blob<Dtype>*>& top); 


// 预 取 的 数据 批量 数目 
static const int PREFETCH COUNT = 3; 


protected: 
virtual void InternalThreadEntry () ; // 内 部 线程 入 口 
virtual void load batch(Batch«Dtype»* batch) = 0; // 载 入 批量 数据 ， 纯 虚 函 数 
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Batch<Dtype> prefetch [PREFETCH COUNT]; // f Buffer 
BlockingQueue«Batch«Dtype»*» prefetch free ; // FW Batch 队列 
BlockingQueue<Batch<Dtype>*> prefetch full ; // 已 加 载 Batch 队列 


Blob«Dtype» transformed data ; // 变换 后 的 数据 
) : 


数据 读 取 层 的 实现 位 于 src/caffe/layers/base data layercpp 中 , 内 容 如 下 : 


#include «boost/thread.hpp» 
#include <string> 


#include <vector> 


#include "caffe/data layers.hpp" 
#include "caffe/net.hpp" 





#include "caffe/util/io.hpp" 


namespace caffe { 

// 构造 函数 ， 初 始 化 Layer 参数 、 数 据 变换 器 参数 

template «typename Dtype» 

BaseDataLayer«Dtype»::BaseDataLayer(const LayerParameter& param) 
Layer«Dtype» (param), 
transform param (param.transform param()) { 

} 

// BaseDataLayer AWE 

template <typename Dtype> 

void BaseDataLayer«Dtype»::LayerSetUp(const vector<Blob<Dtype>*>& bottom, 


const vector<Blob<Dtype>*>& top) { 





if (top.size() == 1) ( // 判断 输出 Blob T XL 若 妨 1 Hi data, 4:79 2 则 输出 data 和 Label 
output_labels = false; 

} else { 
output labels = true; 


} 
// SIUS SEE SER ae MTR 
data transformer .reset( 
new DataTransformer«Dtype» (transform param , this-»phase )); 
data transformer ->InitRand(); // 生成 随机 数 种 子 
// 子 类 负责 设置 rop Blob 形状 
DataLayerSetUp(bottom, top); 
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// BasePrefetchingDataLayer 构造 函数 
template «typename Dtype> 
BasePrefetchingDataLayer<Dtype>: :BasePrefetchingDataLayer ( 
const LayerParameter& param) 
BaseDataLayer«Dtype» (param), 
prefetch free (), prefetch full () { 
for (int i = 0; i < PREFETCH COUNT; ++i) { 
prefetch free .push(&prefetch [i]); // 将 Batch 对 象 都 放 入 空闲 队列 中 


} 

// BasePrefetchingDataLayer 层 配置 函数 

template «typename Dtype» 

void BasePrefetchingDataLayer<Dtype>: : LayerSetup ( 
const vector<Blob<Dtype>*>& bottom, const vector<Blob<Dtype>*>& top) 1 

BaseDataLayer<Dtype>: :LayerSetUp (bottom, top); 

// 在 开启 数据 预 取 线 程 前 ， 通 过 调用 Blob 相应 函数 先进 行 cudaMalloc， 避 免 在 多 线程 情况 下 同时 进行 

cudaMalloc， 会 导致 CUDA API 调用 失败 

(int ユー 07 i < PREFETCH COUNT; ++1) { 





for 
prefetch [i].data .mutable cpu data(); 
if (this-»output labels ) { 
prefetch [i].label .mutable cpu data(); 


! 

// 如 果 编 译 选 项 没有 CPU_ONLY， 则 需要 编译 GPU 代码 
*ifndef CPU ONLY 

if (Caffe::mode() == Caffe::GPU) { 


for (int i = 0; i < PREFETCH COUNT; ++i) { 
prefetch [i].data .mutable gpu data(); 
if (this-»output labels ) ( 


prefetch [i].label .mutable gpu data(); // 功能 同上 


} 

#endif 
DLOG(INFO) << "Initializing prefetch"; 
this->data_transformer_-—>InitRand(); 


StartInternalThread (); // 开启 内 部 预 取 线程 
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DLOG(INFO) «« "Prefetch initialized."; 
} 
// 内 部 线程 入 口 
template <typename Dtype> 





void BasePrefetchingDataLayer«Dtype»::InternalThreadEntry() { 
// 创建 CUDA Stream, JEI ÆA 
#ifndef CPU ONLY 
cudaStream t stream; 
if (Caffe::mode() == Caffe::GPU) { 
CUDA CHECK(cudaStreamCreateWithFlags (sstream, cudaStreamNonBlocking)); 
m 
#endif 


try { 
while (!must_stop()) ( // 循环 载 入 批量 数据 
Batch<Dtype>* batch = prefetch free .pop(); // 拿 到 一 个 空 有 Batch 


load batch(batch); // 载 入 批量 数据 
#ifndef CPU ONLY 
if (Caffe::mode() == Caffe::GPU) { 
batch->data_.data().get()->async_gpu_push (stream) ; 
CUDA CHECK (cudaStreamSynchronize(stream)); // 同步 到 GPU 
} 
endif 
prefetch full .push(batch); // 加 入 到 带 负载 的 Batch 队列 中 
} 
) catch (boost::thread interrupted&) | // 捕获 到 异常 ， 退 出 while 循环 
// Interrupted exception is expected on shutdown 
) 
#ifndef CPU ONLY 


if (Caffe::mode() == Caffe::GPU) { 
CUDA CHECK(cudaStreamDestroy(stream)); // #9% CUDA Stream 
} 
fendif 


} 

// 前 向 传播 函数 

template <typename Dtype> 

void BasePrefetchingDataLayer«Dtype»::Forward cpu( 

const vector<Blob<Dtype>*>& bottom, const vector<Blob<Dtype>*>& top) { 
// 从 带 负 载 的 Batch 队列 中 取出 一 个 Batch 対象 
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Batch«Dtype»* batch - prefetch full .pop("Data layer prefetch queue empty"); 
// Top Blob 根据 Batch 形状 进行 变形 
top[0]-»Reshape(batch-»data .num(), batch-»data .channels(), 
batch->data .height(), batch-»data .width()); 
// t Batch 中 的 数据 拷贝 到 Top Blob 
caffe copy(batch-»data .count(), batch-»data .cpu data(), 
top [0] ->mutab1e cpu data()); 
DLOG(INFO) << "Prefetch copied"; 
if (this-»output labels ) ( // 如 果 需 要 输出 标签 数据 
// Top Blob 根 据 Batch 中 的 label 形状 进行 变形 
top[1]-»ReshapeLike (batch-»label ) 
// ¥ Batch 中 的 数据 拷贝 到 Top Blob 
caffe copy(batch-»1label .count(), batch-»label .cpu data(), 
top[1]-»mutable cpu data()); 
} 
// 将 一 个 Batch 数据 送 入 Net， 完 成 任务 ， 返 回 室 闲 队列 接收 下 一 批量 数据 
prefetch free .push (batch); 


#ifdef CPU ONLY 
STUB GPU FORWARD(BasePrefetchingDataLayer, Forward); 
#endiE 


INSTANTIATE CLASS (BaseDataLayer); 
NSTANTIATE CLASS (BasePrefetchingDataLayer); 





// namespace caffe 


9.2 ”数据 变换 器 


Caffe 的 数据 变换 器 〈DataTransformer) 主要 提供 了 对 原始 和 输入 图 像 的 预 处 理 方法 ， 包 括 随 
机 切 块 、 随 机 镜像 、 幅 度 缩放 、 去 均值 、 灰 度 / 色 度 变换 等 。 相 信 熟 悉 图 像 处 理 、OpenCyV 的 读 
者 对 上 述 操作 并 不 陌生 。 





9.2.1 数据 结构 描述 


message TransformationParameter { 
// 像素 幅度 缩放 参数 ， 默 认为 1， 即 不 缩放 
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optional float scale - 1 [default - 1]; 

// BRBN, ERU false， 即 不 进行 镜像 操作 

optional bool mirror = 2 [default = false]: 

// 图 像 随机 切 抉 的 大 小 ， 默 认为 0， 即 不 进行 切 块 操 作 

optional uint32 crop size = 3 [default - 0]; 

// 存储 图 像 均 值 的 文件 

optional string mean file - 4; 

// 均值 数值 ,无须 读 取 文 件 。 若 数目 与 图 像 通道 数目 相等 ， 则 每 个 图 像 通道 分 别 减 去 对 应 的 均值 ;如 果 只 给 出 一 个 
值 ， 则 每 个 图 像 通 道 都 减 去 同一 个 均值 

repeated float mean value = 5; 

// 强制 为 三 通道 彩色 图 像 输入 

optional bool force color = 6 [default = false]; 

// 强制 为 单 通道 灰 度 图 像 输入 


optional bool force gray = 7 [default = false]; 


9.2.2 ”数据 变换 器 的 实现 


数据 变换 器 声明 头 文件 位 于 include/caffe/data transformer.hpp 中 ， 如 果 需 要 单独 使 用 该 模 
块 ， 应 包含 这 个 头 文 件 。 文 件 内 容 如 下 : 
#ifndef CAFFE DATA TRANSFORMER HPP 
#define CAFFE DATA TRANSFORMER HPP 


#include <vector> 


#include "caffe/blob.hpp" 
#include "caffe/common.hpp" 


#include "caffe/proto/caffe.pb.h" 


namespace caffe { 
// DataTransformer 类 声明 
template <typename Dtype> 
class DataTransformer { 
public: 
// 显 式 构造 函数 
explicit DataTransformer(const TransformationParameter& param, Phase phase); 
// 析 构 函数 
virtual -DataTransformer() {} 


// 初始 化 随机 数 种 子 函 数 
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void InitRand(); 


// 将 数据 读 取 层 中 transform param 块 所 声明 的 变换 应 用 到 输入 数据 中 
// 函数 重 载 ， 以 适应 多 种 输入 数据 源 
void Transform(const Datum& datum, Blob«Dtype»* transformed blob); 
void Transform(const vector«Datum»& datum vector, 

Blob«Dtype»* transformed blob); 
void Transform(const vector<cv::Mat>& mat vector, 

Blob«Dtype»* transformed blob); 
void Transform(const cv::Mat& cv img, Blob«Dtype»* transformed blob); 
void Transform(Blob«Dtype»* input blob, Blob«Dtype»* transformed blob); 
void Transform(const Datum& datum, Dtype* transformed data); 
// 获取 执行 Transform 后 的 输出 Blob 形状 
vector<int> InferBlobShape(const Datum& datum); 
vector<int> InferBlobShape (const vector«Datum»& datum vector); 
vector«int» InferBlobShape (const vector<cv::Mat>& mat vector); 


vector«int» InferBlobShape(const cv::Mat& cv img); 


protected: 

// 产生 取 值 {0，1，.…，n-1} 的 随机 整数 ， 服 从 均匀 分 布 
virtual int Rand(int n); 

// 变换 参数 ， 该 数据 结构 由 ProtoBuffer 工具 自动 生成 
TransformationParameter param ; 

// 随 机 数 生成 器 , 声明 在 include/caffe/common.hpp 中 
shared _ptr<Caffe::RNG> rng ; 

// 当前 运行 阶段 ， 可 能 为 TRAIN 或 TEST。 阶段 不 同 ， 执 行 变换 会 有 差异 
Phase phase ; 

// 均值 图 像 ， 用 于 从 均值 文件 中 读 取 

Blob«Dtype» data mean ; 

// 均值 数值 ， 用 于 从 param 中 提 取 

vector«Dtype» mean values ; 


}; 


























) // namespace caffe 


#endif // CAFFE DATA TRANSFORMER HPP 


数据 变换 器 的 实现 文件 位 于 src/caffe/data transformer.cpp， 我 们 来 深入 阅读 一 下 。 


#include <opencv2/core/core.hpp> 
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#include <string> 


#include <vector> 


#include "caffe/data transformer.hpp" 
#include "caffe/util/io.hpp" 
#include "caffe/util/math functions.hpp" 


#include "caffe/util/rng.hpp" 


namespace caffe { 
// 构造 函数 
template«typename Dtype» 
DataTransformer«Dtype»::DataTransformer(const TransformationParameter& param, 
Phase phase) 
: param (param), phase (phase) | // 初始 化 Param 和 phase_ 
// 查看 是 否 使 用 均值 文件 
if (param .has mean file()) ( 
// WR param 中 指定 了 均值 文件 ， 又 指定 了 均值 数值 ， 则 报错 ， 只 能 二 选 一 
CHECK EQ(param .mean value size(), 0) «« 
"Cannot specify mean file and mean value at the same time"; 
const string& mean file = param.mean file(); // 获取 均值 文件 名 
// 从 均值 文件 中 读 取 数据 到 blob proto 対象 中 
BlobProto blob proto; 
ReadProtoFromBinaryFileOrDie(mean file.c str(), &blob proto); 
// 从 blob proto 将 均值 反 序列 化 到 data mean 内存 中 
data mean .FromProto(blob proto); 
) 
// 查看 是 否 使 用 均值 数值 
if (param .mean value size() > 0) 1 
CHECK (param .has mean file() == false) << 
"Cannot specify mean file and mean value at the same time"; 
for (int c = 0; c < param .mean value size(); ++c) { 


mean values .push back(param .mean value(c));// M param 中 读 取 均值 数值 ， 不 再 读 取 均 值 文件 


} 
// 变换 函数 ， 从 众多 重 载 函数 中 ， 我 们 选择 一 个 重点 讲解 ， 其 他 的 计算 流程 都 类 似 
// 下 面 函 数 使 用 了 Datum 作为 输入 ， 这 个 结构 体 我 们 可 以 从 caffe.proto P-R 
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/* 


// Datum 用 来 从 LMDB/LEVELDB 中 读 取 数据 ， 或 将 数据 写 入 LMDB/LEVELDB. 和 BlobProto 有 相似 的 功能 ， 只 
是 BlobProto 用 于 模型 权 值 序列 化 / 反 序 列 化 ， 而 Datum 专 为 数据 或 特征 图 (feature map) BEOUT (E / I HP 


化 服务 
message Datum { 
// 数据 维度 信息 ，channels * height * width 
optional int32 channels - 1; 
optional int32 height - 2; 
optional int32 widtn = 3; 
// 图 像 数 据 ， 以 字 节 类 型 存储 
optional bytes data = 4; 
// 标签 数据 ， 统 一 用 int32 类 型 存储 
optional int32 label = 5; 
// 可 选 ， 图 像 数 据 也 可 以 用 float 类 型 存储 
repeated float float data - 6; 
// 是 否 为 编码 数据 ， 默 认 不 是 
optional bool encoded = 7 [default = false]; 
} 
ay 
// 下 面 函 数 输入 为 Datum， 输 出 为 数据 指针 
template«typename Dtype» 
void DataTransformer«Dtype»::Transform(const Datums datum, 
Dtype* transformed data) { 
// 获得 datum 数据 字 串 、 维 度 信 息 
const string& data = datum.data(); 
const int datum channels - datum.channels(); 
const int datum height = datum.height(); 
const int datum width = datum.width(); 
// 从 param 获取 处 理 参 数 ， 如 切 块 大 小 、 幅 度 缩 放 、 随 机 镜像 、 图 像 均 值 等 
const int crop size = param .Crop size(); 
const Dtype scale - param .scale(); 
const bool do mirror - param .mirror() && Rand(2); 
const bool has mean file - param .has mean file(); 
const bool has uint8 - data.size() » 0; 


const bool has mean values = mean values .size() > 0; 


CHECK GT(datum channels, 0); // 保证 输入 数据 通道 数 大 于 0 


CHECK GE(datum height, crop size); // 保证 输入 数据 宽 和 高 大 于 切 块 大 小 


CHECK GE (datum width, crop size); 
// 获得 图 像 均 值 ww ai bèt. com 0 000000 
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Dtype* mean - NULL; 
if (has mean file) { // 若 指定 了 图 像 均 值 文件 
// 保证 图 像 均值 的 维度 与 输入 图 像 数据 的 维度 完全 相同 
CHECK EQ(datum channels, data mean .channels()); 
CHECK EQ(datum height, data mean .height()); 
CHECK EQ(datum width, data mean .width()); 
mean = data mean .mutable cpu data(); // 夺取 图 像 均 值 数 据 控 制 权 
} 
if (has mean values) | // 若 没 有 指定 图 像 均 值 文件 ， 而 是 直接 给 出 数值 
// 保证 均值 数值 维度 为 1， 或 与 输入 图 像 数 据 的 channels 数目 相同 


CHECK(mean values .size() = || mean_values_.size() == datum_channels) << 
"Specify either 1 mean_value or as many as channels: " << datum_channels; 
if (datum channels > 1 && mean values .size() == 1) { 


// 车 均值 数值 维度 为 1， 而 输入 数据 channels 数目 大 于 1, WE Sia channels 次 
for (int c = 1; c < datum channels; ++c) | 


mean values .push back(mean values [0]); 


} 

// 输入 图 像 宽 和 高 

int height = datum height; 

int width = datum width; 

// 开始 图 像 切 块 

int h off 0; 

int w off = 0; 

if (crop size) { // crop size 不 为 0， 则 进行 切 块 : 若 为 0 表示 不 切 块 


height = crop size; 


D 


width = crop size; 
// 训练 阶段 随机 切 块 
if (phase == TRAIN) { 
h off = Rand(datum height - crop size +1); // DRY height 偏 移 量 
w off = Rand(datum width - crop size + 1);  // 切 块 的 width 偏 移 量 
} else ( // 测试 阶段 只 切取 图 像 中 心 位 置 
h off = (datum height - crop size) / 2; 


w off — (datum width - crop size) / 2; 


Dtype datum element; // 存放 输入 图 像 的 像素 值 
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int top index, data index; // 分 别 存放 输出 index、 输 入 index 
for (int c = 0; c < datum channels; ++c) { 
for (int h = 0; h < height; ++h) { 


for (int w = 0; w < width; ++w) { 


data index = (c * datum height + h off + h) * datum width + w off + w; 
if (do mirror) { // 大 需要 镜像 操作 ， 则 对 输出 index 设置 width 反 向 

top index = (c * height + h) * width + (width - 1 - w); 
} else | 


top index = (c * height + h) * width + w; 
} 
if (has uint8) { // 革 datum 中 使 用 uint8 存储 图 像 数据 ， 需 要 转换 为 float 
datum element = 
static cast«Dtype» (static cast«uint8 t»(data[data index])):; 
} else | 
datum element = datum.float data(data index); 
1 
if (has mean file) | // 若 指定 了 均值 文件 
transformed data[top index] = 
(datum element - mean[data index]) * scale; // 执行 去 均值 、 幅 度 缩放 
] else 1 
if (has mean values) { // 车 指定 了 均值 数值 
transformed data[top index] - 
(datum element - mean values [c]) * scale; // 去 均值 、 幅 度 缩放 
| else ( 
transformed data[top index] = datum element * scale; // 不 去 均值 ， 只 做 幅度 缩放 


} 
// 5 Eie BR, HESS ey Blob 
template<typename Dtype> 
void DataTransformer<Dtype>::Transform(const Datum& datum, 
Blob<Dtype>* transformed blob) { 
// 如果 datum 是 经 过 编码 的 图 像 ， 则 先 解 码 
if (datum.encoded()) { 
CHECK(!(param .force color() && param .force gray())) 


<< "cannot set both force color and force gray"; 
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cv::Mat cv img; 


if (param .force color() || param .force gray()) { 


cv img = DecodeDatumToCVMat (datum, param .force color()); 
) else ( 
cv img = DecodeDatumToCVMatNative (datum); 
} 
// 将 cv::image 变换 为 Blob 
return Transform(cv img, transformed blob); 
) else { 
if (param .force color() || param .force gray()) { 


LOG(ERROR) «« "force color and force gray only for encoded datum"; 


const int crop size = param .crop size(); 
const int datum channels - datum.channels(); 
const int datum height - datum.height(); 


const int datum width = datum.width(); 


// 检查 维度 

const int channels = transformed blob-»channels(); 
const int height = transformed blob-»^height(); 
const int width = transformed blob-»width(); 


const int num = transformed blob-»num(); 


CHECK EQ(channels, datum channels); 
CHECK LE(height, datum height); 
CHECK LE(width, datum width); 

CHECK GE(num, 1); 


if (crop size) 1 
CHECK EQ(crop size, height); 
CHECK EQ(crop size, width); 


~ 


else { 
CHECK EQ(datum height, height); 
CHECK EQ(datum width, width); 
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Dtype* transformed data = transformed blob-»mutable cpu data(); 
Transform(datum, transformed data); // 参数 变换 完毕 ， 调 用 现 有 函数 

} 

// 对 一 组 datum 进行 变换 

template<typename Dtype> 

void DataTransformer<Dtype>::Transform(const vector<Datum>& datum vector, 

Blob<Dtype>* transformed blob) | 

const int datum num - datum vector.size(); 
const int num = transformed blob-»num(); 
const int channels = transformed blob-»channels(); 
const int height - transformed blob-»height(); 


const int width = transformed blob-»width(); 


CHECK GT(datum num, 0) «« "There is no datum to add"; 
CHECK LE(datum num, num) «« 
"The size of datum vector must be no greater than transformed blob-»num()"; 
Blob«Dtype» uni blob(1, channels, height, width); // 临时 Blob 
// 依次 对 每 个 datum 进行 变换 ， 放 入 对 应 的 Blob 中 
for (int item id = 0; item id < datum num; ++item id) | 
int offset = transformed blob-»offset(item id); 
uni blob.set cpu data(transformed blob-»mutable cpu data() + offset); - 


Transform(datum vector[item id], &uni blob); 


} 
// 对 一 组 输入 cv: :Mat 对 象 进行 变换 ， 放 入 Blob 中 
template«typename Dtype> 
void DataTransformer«Dtype»::Transform(const vector«cv::Mat»& mat vector, 
Blob«Dtype»* transformed blob) { 
const int mat num = mat vector.size(); 
const int num - transformed blob-»num(); 
const int channels = transformed blob-»channels(); 
const int height = transformed blob-»height(); 


const int width - transformed blob-»width(); 


CHECK GT(mat num, 0) «« "There is no MAT to add"; 
CHECK EQ(mat num, num) << 

"The size of mat vector must be equals to transformed blob-»num()"; 
Blob<Dtype> uni blob(1, channels, height, width); 


for (int item id = 0; item id < mat num; ++item id) { 
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int offset = transformed blob-»offset(item id); 
uni blob.set cpu data(transformed blob-»mutable cpu data() + offset); 


Transform(mat vector[item id], &uni blob); 


) 

// 对 一 个 cv: :Mat 对 象 进行 变换 

template«typename Dtype> 

void DataTransformer«Dtype»::Transform(const cv; :Mat& cv img, 

Blob«Dtype»* transformed blob) | 

const int crop size = param .Grop size(); 
const int img channels - cv img.channels(); 
const int img height = cv img.rows; 


const int img width = cv img.cols; 


// 检查 维度 

const int channels = transformed blob-»channels(); 
const int height = transformed blob-»height(); 
const int width - transformed blob-»width(); 


const int num = transformed blob-»num(); 


CHECK EQ(channels, img channels); 
CHECK LE(height, img height); 
CHECK LE(width, img width); 

CHECK GE(num, 1); 


CHECK(cv img.depth() -- CV 8U) «« "Image data type must be unsigned byte"; 


const Dtype scale = param .scale(); 
const bool do mirror - param .mirror() && Rand(2); 
const bool has mean file = param .has mean file(); 


const bool has mean values - mean values .size() » 0; 


CHECK GT(img channels, 0); 
CHECK GE(img height, crop size); 
CHECK GE(img width, crop size); 


Dtype* mean - NULL; 


if (has mean file) | 


CHECK EQ(img channels, data mean .channels()); 
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CHECK EQ(img height, data mean .height()); 
CHECK EQ(img width, data mean .width()); 
mean = data mean .mutable cpu data(); 

} 


if (has mean values) { 


CHECK(mean values .size() == 1 || mean values .size() == img channels) << 
"Specify either 1 mean value or as many as channels: " «« img channels; 
if (img channels > 1 && mean values .size() == 1) { 


// 复制 均值 数值 ， 便 于 操作 
for (int c = 1; c < img channels; ++c) { 


mean values .push back(mean values [0]); 


ll 


Gis 
OF 
// 用 opencV 实现 图 像 切 块 


cv::Mat cv cropped img = cv img; 


int h off 


int w off 


if (crop size) { 
CHECK EQ(crop size, height); 
CHECK EQ(crop size, width); 
// 只 有 训练 阶段 才 会 做 随机 切 块 
if {phase == TRAIN) { 
h off = Rand(img height - crop size + 1); 


w off = Rand(img width - crop size + 1); 


) else ( 
h off = (img height - crop size) / 2; 
w off = (img width - crop size) / 2; 


) 
cv::Rect roi(w off, h off, crop size, crop size); 


cv cropped img - cv img(roi); 


~ 


else { 
CHECK EQ(img height, height); 
CHECK EQ(img width, width); 


CHECK(cv cropped img.data); 
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Dtype* transformed data = transformed blob-»mutable cpu data(); 
int top index; 
for (int h = 0; bh < height; ++h) [ 
const uchar* ptr = cv_cropped_img.ptr<uchar>(h); 
int img_index = 0; 
for (int w = 0; w < width; ++w) { 
for (int c = 0; e < img channels; ++c) { 


if (do mirror):| 


top index = (c * height + h) * width + (width = 1 = w); 
} else 1 . 

top index = (c * height + H) * width + w; 
] 
// int top index = (c * height + h) * width + w; 


Dtype pixel = static cast«Dtype»(ptr[img index-*]); 
if (has mean file) { 
int mean index = (c * img height + h off 十 h) * img width + w off + w; 
transformed data[top index] = 
(pixel - mean[mean index]) * scale; 
} else | 
if (has mean values) | 


transformed data[top index] =・ 


(pixel - mean values [c]) * scale; 
) else 1 
transformed data[top index] = pixel * scale; 


} 
// 输入 是 Blop， 答 出 也 是 Blob 
template«typename Dtype» 
void DataTransformer«Dtype»::Transform(Blob«Dtype»* input blob, 
Blob«Dtype»* transformed blob) { 
const int crop Size = param .crop size(); 
const int input num - input blob-»num(); 
const int input channels = input blob-»channels(); 
const int input height = input blob-»height(); 


const int input width = input blob-»width(); 
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if (transformed blob-»count() == 0) { 
// 初始 化 变换 后 的 Blob 形状 
if (crop size) | 
transformed blob-»Reshape(input num, input channels, 
crop size, Grop size); 
} else { 
transformed blob-»Reshape(input num, input channels, 


input height, input width); 


const int num = transformed blob-»num(); 

const int channels - transformed blob-»channels(); 
const int height = transformed blob-»height(); 
const int width = transformed blob-»width(); 


const int size = transformed blob-»count(); 


CHECK LE(input num, num); 

CHECK EQ(input channels, channels); 
CHECK GE(input height, height); 
CHECK GE(input width, width); 


const Dtype scale - param .scale(); 
const bool do mirror - param .mirror() && Rand(2); 
const bool has mean file = param .has mean file(); 


const bool has mean values = mean values .size() » 0; 


Il 


int h off 0; 
int w off = 0; 
if (crop size) | 
CHECK EQ(crop size, height); 
CHECK EQ(crop size, width); 
// 只 有 训练 阶段 才 会 做 随机 切 块 
if (phase == TRAIN) { 
h off = Rand(input height - crop size + 1); 


w off = Rand(input width - crop size + 1); 
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} else { 
h_off = (input_height - crop_size) / 2; 
w off = (input width - crop size) / 2; 
} 
} else { 


CHECK EQ(input height, height); 
CHECK EQ(input width, width); 


Dtype* input data = input blob-»mutable cpu data(); 
if (has mean file) | 
CHECK EQ(input channels, data mean .channels()); 
CHECK EQ(input height, data mean .height()); 
CHECK EQ(input width, data mean .width()); 
for (int n = 0; n < input num; ++n) ( 
int offset = input blob-»offset (n); 
caffe sub(data mean .count(), input data * offset, 


data. mean .cpu data(), input data + offset); 


if (has mean values) { 
|| mean values .size() -- input channels) «« 


CHECK(mean values .size() -- 1 


"Specify either 1 mean value or as many as channels: " «« input channels; 


if (mean values .size() == 1) | 
caffe add scalar(input blob-»count(), -(mean values [0]), input data); 
} else { 


for (int n = 0; n < input num; tta) { ・ 
for (int c = 0; c < input channels; **c) { 
int offset - input blob-»offset(n, c); 


caffe add scalar(input height * input width, - (mean values [c]), 


input data + offset); 


Dtype* transformed data = transformed blob-»mutable cpu data(); 
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for (int n = 0; n < input num; ++n) | 
int top index n - n * channels; 
int data index n - n * channels; 
for (int c = 0; c < channels; t*c) { 
int top index c = (top index n * c) * height; 
int data index c = (data index n + c) * input height + h off; 
for (int h = 0; kh < height; ++h) 1 
int top index h = (top index c + h) * width; 
int data index h = (data index c + h) * input width + w off; 
if (do mirror) { | 
int top index w — top index h * width - 1; 
for (int w = 0; w « width; ++W) { 
transformed data[top index w-w] = input data[data index h * w]; 
} 
} else { 


for (int w = 0; w € width; ++w) { 


transformed data[top index h + w] = input_data[data_index_h + w]; 
} 
) 
! 

} 
) 
if (scale != Dtype(1)) { 

DLOG(INFO) << "Scale: " << scale; 


caffe scal(size, scale, transformed data); 


// 获得 数据 变换 输出 Blob 尺寸 
template<typename Dtype» 
vector<int> DataTransformer«Dtype»::InferBlobShape(const cv::Mat& cv img) 1 
const int crop size — param .crop size(); 
const int img channels — cv img.channels(); 
const int img height = cv img.rows; 
const int img width - cv img.cols; 
// 检查 维度 
CHECK GT(img channels, 0); 
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CHECK GE(img height, crop size); 
CHECK GE(img width, crop size); 
// 创建 BlobShape 对 象 
vector«int» shape(4); 

shape[0] = 1; 


shape[1] = img channels; 


1 


shape [2 ] 


(crop size)? crop size: img height; 
shape[3] = (crop size)? crop size: img width; 


return shape; 


// 初始 化 随机 数 种 子 
template «typename Dtype» 
void DataTransformer<Dtype>::InitRand() { 
— 4H 如 果 在 初始 化 参数 中 要 求 对 输入 进行 随机 镜像 操作 ， 或 者 在 训练 阶段 需要 随机 切 块 ， 
// 那么 需要 初始 化 随机 数 种 子 
const bool needs rand = param .mirror() || 
(phase == TRAIN && param .crop size()); 
if (needs rand) { 
const unsigned int rng seed - caffe rng rand(); 
rng .reset(new Caffe::RNG(rng seed)); 
} else { 


rng .reset(); 


} 
// 生成 0 ~ n-1 之 间 的 随机 数 
template «typename Dtype> 
int DataTransformer<Dtype>::Rand(int n) { 
CHECK(rng ); 
CHECK GT(n, 0); 
caffe::rng t* rng = 
static cast«caffe::rng t*»(rng -»generator()); 


return ((*rng)() も n); 


INSTANTIATE CLASS (DataTransformer) ; 


} // namespace caffe 
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练习 题 


.阅读 剩 下 的 memory data layercpp. window data layer.cpp。 
. 试 着 实现 hdfs data layer. 


. 试 着 用 Matlab 实现 数据 变换 。 
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#10 x 


Caffe 模型 


我 们 在 上 篇 就 讲 过 ， 一 个 完整 的 深度 学 习 系 统 最 核心 的 两 个 方面 是 数据 和 模型 。 今 天 我 们 
”主要 关注 模型 。 一 个 深度 学 习 模型 通常 由 三 部 分 参数 组 成 ; 





O 可 学 习 参 数 (Learnable Parameter)， 又 称 可 训练 参数 、 神 经 网 络 权 系数 、 权 重 ， 其 数值 
由 模型 初始 化 参数 、 误 差 反 向 传播 过 程控 制 ， 一 般 不 可 人 工 干 预 。 





QO 结构 参数 CArchetecture Parameter)， 包 括 卷 积 层 /全 连接 层 / 下 采样 层 数目 、 卷 积 核 数 目 、 
卷 积 核 大 小 等 描述 网 络 结构 的 参数 ,一 旦 设 定好 ， 在 网 络 训练 阶段 不 能 更 改 ; 值得 注意 
的 是 ， 训 练 阶段 网 络 结构 参数 和 预测 阶段 结构 参数 很 可 能 不 同 。 





O 训练 超 参数 〈Hyper-Parameter)， 用 来 控制 网 络 训练 收敛 的 参数 ， 训 练 阶段 可 以 自动 或 
手动 调节 以 获得 更 好 的 效果 ， 预 测 阶段 不 需要 该 参数 。 














在 Caffe 中 ， 一 个 横 型 的 三 部 分 参数 分 别 由 不 同 模块 定义 和 实现 : 


O 可 学 习 参 数 在 内 存 中 使 用 Blob 对 象 保持 ， 必 要 时 以 二 进 制 ProtoBuffer 文件 
(* caffemodel) 形态 序列 化 并 存储 于 磁盘 上 ， 便 于 进一步 微调 〈finetune， 又 称 精 调 )、 
共享 (例如 参数 服务 器 Parameter Server，PS )、 人 性 能 评估 (benchmark). 





O 结构 参数 使 用 ProtoBuffer 文 本 格式 proio 描述 ， 网 络 初始 化 时 通过 该 描述 文件 
构建 Net 対象 、 Layer 对 象形 成 有 向 无 环 图 结构 ， 在 Layer 与 Layer 之 间 、Net 输入 源 和 
输出 阱 均 为 持 有 数据 和 中 间 结 果 的 Blob 对 象 。 











O 训练 超 参 数 同样 使 用 ProtoBuffer 文 本 格式 (*.prototxt) 描述 ， 训 练 阶段 利用 该 描述 文 
件 构 建 求解 器 (Solver) 対象 , 该 对 象 按照 一 定 规则 在 训练 网 络 时 自动 调节 这 些 超 参 数值 。 
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下 面 我 们 一 一 展开 进行 介绍 。 


今天 我 们 将 在 第 6 天 介绍 的 MNIST 例 程 中 对 LeNet-5 模型 稍 加 修改 ， 变 成 如 图 10-1 所 示 
的 逻辑 回归 (Logistic Regression, LR) 分 类 器 。 

















图 10-1 LR 分 类 器 有 FMNIST 








10.1 prototxt 表示 


复制 一 份 examples/mnist/lenet train test.prototxt， 重 命名 为 lenet lrprototxt, 修改 内 容 如 下 : 


name: "LeNet" 
layer { 
name: "mnist" 
type: "Data" 
top: "data" 
top: "label" 
include { 
phase: TRAIN 
) 
transform param { 
scale: 0.00390625 
) 
data param ( 
Source: "examples/mnist/mnist train lmdb" 


batch size: 64 wwaibbt.com HHHHHHH 
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backend: LMDB 


} 
layer { 
name: "mnist" 


type: "Data" 


top: "data" 
top: "label" 
include { 


phase: TEST 
) 
transform param | 
Scale: 0.00390625 
} 
data param { 
source: "examples/mnist/mnist test lmdb" 
batch size: 100 
backend: LMDB 


} 

layer { 
name: "ip" 
type: "InnerProduct" 
bottom: "data" 

"ip 


param { 


top: " 
lr mult: 1 

} 

param { 
lr mult: 2 

} 

inner product param { 
num output: 10 
weight filler { 

type: "xavier" 

} 
bias filler { 


type: "constant" 
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} 

layer | 
name: "accuracy" 
type: "Accuracy" 
bottom: "ip" 
bottom: "label" 
top: "accuracy" 
include | 


phase: TEST 


} 
layer { 
name: "loss" 
type: "SoftmaxWithLoss" 
bottom: "ip" 
bottom: "label" 


top: "loss" 


复制 一 份 examples/mnist/lenet solver.prototxt, 
如 下 : 
net: "examples/mnist/lenet lr.prototxt" 
test iter: 100 
test interval: 500 
base lr: 0.01 
momentum: 0.9 
weight decay: 0.0005 
lr policy: "inv" 
gamma: 0.0001 
power: 0.75 
display: 100 
max iter: 10000 
snapshot: 5000 
snapshot prefix: "examples/mnist/lenet" 


solver mode: CPU 


运行 训练 ， 在 命令 行 输入 : 
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lenet Ir solverprototxt, 修 改 内 容 


$ ./build/tools/caffe train --solver-examples/mnist/lenet lr solver.prototxt 
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经 过 训练 ， 可 以 获得 在 测试 集 上 分 类 准确 率 为 92.28% 的 模型 。 相 比 LeNet-5 而 言 准 确 率 
降低 了 ， 这 也 符合 直觉 ， 因 为 将 模型 简化 后 参数 变 少 ， 层 数 变 少 ， 网 络 表达 能 力 变 差 。 我 们 今 
天 不 关注 准确 率 ， 只 关注 模型 的 表达 方式 。 


10.2 内 存 中 的 表示 


从 运行 log 文件 可 以 追踪 模型 是 如 何 从 prototxt 描述 变 为 内 存 中 表示 方式 的 。 
看 到 这 行 : 


I0410 18:28:58.323169 52982 solver.cpp:91] Creating training net from net file: 
examples/mnist/lenet lr.prototxt 


Ho... 不 要 在 意 这 些 细节 


I0410 18:28:58.323587 52982 net.cpp:49] Initializing net from parameters: 


追踪 solvercpp 的 第 91 行 ， 看 到 如 下 代码 ; 
// 在 solver.hpp 中 声明 了 SolverParameterparam | 
// ‘Gre ProtoBuffer 工具 生成 的 结构 体 ， 用 来 解析 lenet lr solver.prototxt 
// 可 参考 5.1 节 例 程 ， 熟 悉 该 结构 体 的 用 法 
NetParameternet param; 
FW y dw な 


if (param .has net()) | // WẸ lenet lr solver.prototxt 中 指定 了 网 络 描述 prototxt 文件 , 这 
里 为 true 


LOG IF(INFO, Caffe::root solver())  // 打印 log 
<< "Creating training net from net file: "<< param .net(); 
// 这 里 param .net() 会 返回 examples/mnist/lenet lr.prototxt 
ReadNetParamsFromTextFileOrDie(param .net(), &net param); 
// 读 取 并 解析 1enet lr.prototxt 内 容 ， 将 网 络 参数 载 入 net. param 结构 体 
// 该 函数 是 ProtoBuffer 工具 完成 文本 到 结构 体 变 量 转 换 的 


读者 可 以 继续 跟踪 net param If] 2z [n] 


10.3 ”磁盘 上 的 表示 


Caffe 使 用 ProtoBuffer 二 进 制 文件 有 最 小 文件 尺寸 ， 并 由 ProtoBuffer 工具 自动 生成 高 效 的 
序列 化 / 反 序列 化 接口 〈 多 语言 支持 ， 包 括 C++、Java、Python )， 以 及 可 读 性 好 、 兼 容 二 进 制 文 
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件 的 文 本 格式 文件 。 
我 们 仍然 从 运行 log 查找 线索 : 


10410 18:29:05.610750 52982 solwer.cpp:454] Snapshotting to binary proto file 
examples/mnist/lenet_iter_10000.caffemodel 


10410 18:29:05.615471 52982 sgd solver.cpp:273] Snapshotting solver state to binary proto 
file examples/mnist/lenet iter 10000.solverstate 


其 中 ，.caffemodel 文件 是 在 特定 训练 间隙 保存 的 三 进 制 文 件 ， 包 含 当前 网 络 各 层 的 权 值 状 
AS: 而 .solverstate 是 与 .caffemodel 一 起 产生 的 二 进 制 文件 ， 包 含 从 上 次 停止 点 恢复 i 
所 需 的 信息 。 我 们 有 具体 看 下 列 代码 。 





追踪 solver.cpp 的 第 454 行 ， 上 下 文 信息 如 下 : 


// TE solver.hpp 中 声明 了 solverParameterparam 
// ‘Ek: ErotoBuEfer 二 有 具 生 成 的 结构 体 ， 用 来 解析 lenet lr solver.prototxt 
// 可 参考 5.1 节 例 程 ， 熟 悉 该 结构 体 的 用 法 
template«typenameDtype» 
string Solver<Dtype>::SnapshotToBinaryProto() { 
string model filename = ShapehoLVilendnei".carsemodet”4 // 得 到 模型 文件 名 
LOG(INFO) << "Snapshotting to binary proto file " ««model filename; 
NetParameternet param; 
net -»ToProto(&net param, param .snapshot diff()); 
// 将 net Hei Net Parameter 
WriteProtoToBinaryFile(net param, model filename); 
/ GA ProtoBuffer 二 进 制 文件 ， 这 里 是 lenet iter 10000.caffemodel 


return model filename; 


追踪 sgd solvercpp 的 第 273 行 ， 上 下 文 信息 如 下 : 


template«typenameDtype» 
voidSGDSolver«Dtype»::SnapshotSolverStateToBinaryProto( 
const string&model filename) { 

SolverState state; // 创建 一 个 序列 化 对 象 

state.set iter(this-»iter ); // ido Ap 

state.set learned net(model filename); // 记录 网 络 描述 文件 

state.set current step(this-»current step ); // 记录 当前 步 进 值 

state.clear history); // 清空 容器 ， 准 备 接纳 新 内 容 

for (int i = 0; i«history .size(); ++i) { 


// id ! 录 权 值 的 历史 信息 
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BlobProto* history blob = state.add history () : 

history [i]-2ToProto(history blob); 
} 
stringsnapshot filename = Solver<Dtype>::SnapshotFilename(".solverstate") ; 
LOG (INFO) 

<< "Snapshotting solver state to binary proto file "««snapshot filename; 
WriteProtoToBinaryFile(state, snapshot filename.c str()); 


// 将 Solverstate 对 象 写 入 二 进 制 文件 (+ ,solverstate) 


从 磁盘 上 将 模型 、 求 解 器 状态 文件 裁 入 内 存 的 过 程 与 上 面 代码 刚好 相反 ， 读 者 可 自行 跟踪 
阅读 。 


10.4 Caffe Model Zoo 


对 于 前 面 我 们 运行 的 简单 横 型 ， 可 以 从 头 训 练 〈ffom scrash)。 然 而 ， 对 于 规模 更 大 、 结 构 
更 复杂 的 模型 ， 从 头 训 练 需要 解决 两 个 问题 ， 首 先是 硬件 计算 能 力 。 模 型 训练 十 分 消耗 计算 资 
源 ， 使 用 普通 计算 机 需要 相当 长 的 时 间 ， 不 经 济 ; 而 且 世 界 上 每 个 研究 机 构 都 从 头 训 练 ， 重 复 
性 工作 太 多 ， 不 环保 。 其 次 是 调 参 能 力 。 同 样 的 模型 设计 ， 可 能 每 个 人 训练 结果 都 不 一 致 ， 中 
间 调 参 是 项 技术 活 ， 控 制 不 当 会 引起 训练 发 散 或 训练 不 充分 ， 无 法 达到 理想 的 分 类 效果 。 


为 了 解决 上 述 问 题 ，Caffe Model Zoo 则 提供 了 一 个 分 享 模型 的 平台 ， 世 界 各 地 的 研究 人 员 


今天 我 们 也 站 在 前 人 的 肩膀 上 ， 运 行 一 个 基于 已 训练 模型 的 图 片 分 类 例 程 。 我 们 首先 需要 
FAULT XÍF. 


下 载 meta 数据 到 当前 目录 : 


cd data/ilsvrcl2/ 


X» 4 


.-/get ilsvrc aux.sh 


下載 caffenet 模型 


cd ../../models/bvlc reference caffenet/ 


in © 


wget http://dl.caffe.berkeleyvision.org/bvlc reference caffenet.caffemodel 


回 到 根 目 录 执 行 : 


./build/examples/cpp classification/classification.binN 


Xn 
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models/bvlc reference _caffenet/deploy.prototxt\ 

models/bvlc reference caffenet/bvlc reference caffenet.caffemodel \ 
data/ilsvrci2/imagenet mean.binaryproto^ 

data/ilsvrcl2/synset words.txt \ 


examples/images/cat.jpg 


An AS T ELS UE 
命令 行 解释 如 下 : 
$ ./build/examples/cpp classification/classification.bin 


Usage: ./build/examples/cpp classification/classification.bin\ // 二 进 制 程序 名 


deploy.prototxt // 模型 描述 文件 
network.caffemodel // *.catfemodel 模型 权 值 文件 
mean.binaryproto // 图 像 均值 文件 

labels.txt // 图 像 类 别 标签 信息 

img.jpg // 输入 待 分 类 图 像 


打开 输入 图 像 examples/images/catjpg， 如 图 10-2 所 示 。 


w 





[810-2 cat.jpg 


命令 行 输出 的 预测 结果 为 : 


ニーー ニ ーー ニーーー ニ ー Prediction for examples/images/cat.jpg ---------- 
0.3132 - "n02123045 tabby, tabby cat" 

0.2380 - "n02123159 tiger cat" 

0.1235 - "n02124075 Egyptian cat" 

0.1005 - "n02119022 red fox, Vulpesvulpes" 

0.0716 - "n02127052 lynx, catamount" 
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可 见 给 出 了 5 个 预测 结果 ， 按 照 概 率 分 布 从 高 到 低 的 顺序 排列 。 这 种 预测 结果 称 为 Top-5 
预测 结果 , 对 当前 样本 而 言 , 分 类 正确 率 为 5 项 之 和 0.7768。 除 Top-5 预测 结果 之 外 ,还 有 Top-3、 
Top-1 等 预测 结果 ， 对 当前 样本 的 分 类 正确 率 分 别 为 0.6747、0.3132。 我 们 在 第 13 天 内 容 中 还 


会 见 到 它们 。 
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分 类 准确 率 不 仅 与 验证 数据 集 有 关 ， 与 模型 的 关系 也 非常 密切 。 我 们 在 Caffe Model Zoo 上 
找到 几 个 模型 在 ILSVRC 2012 验证 数据 集 上 的 分 类 效果 ， 如 表 10-1 所 示 。 





表 10-1 分 类 效果 


Name 





BVLC AlexNet |! 0.801 











: 
BVLC CaffeNet 0.801 





NiN P! 0.795 








VGG-DevilS 0.834 





VGG-19 P! 0.685 | 0.885 





BVLC GoogLeNet !”! 0.687 0.89 














Princeton GoogLeNet 0.672 0.881 


可 见 单 模型 分 类 性 能 最 好 的 是 BVLC GoogLeNet。 





通过 掌握 今天 的 内 容 ， 并 学 习 其 他 更 多 深度 学 习 模型 的 设计 和 训练 方法 ， 天 马 行 空 的 大 胆 
想象 加 上 对 Caffe 模型 的 熟练 运用 ， 将 会 让 你 成 长 为 优秀 的 模型 设计 师 。 


10.5 ”练习 题 


l. Caffe 将 模型 设计 与 代码 实现 分 开 有 什么 好 处 ? 





2. 如果 具有 Caffe 训练 好 的 模型 权 值 文件 (*.caffemodel )， 而 没有 求解 器 状态 文件 
(*.solverstate)， 能 否 让 网 络 继续 训练 ”能 否 对 网 络 精 调 ? 


106 参考 資料 


[1] Alex Krizhevsky, ImageNet Classification with Deep Convolutional Neural Networks, NIPS 
2012 
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使 用 传统 的 BP 算法 进行 CNN 训练 时 包括 两 个 阶段 ， 前 向 传播 计算 (Forward) 和 反问 传 
播 计算 (Backward)。 今 天 我 们 将 注意 力 放 在 前 向 传播 阶段 。 

前 向 传播 阶段 在 实际 应 用 中 最 常见 ， 比 如 大 量 的 在 线 系统 〈 语 音 识别 、 文 字 识 别 、 图 像 分 
类 和 检索 等 ) 都 是 仅 前 向 传播 阶段 的 应 用 : 一 些 代 入 式 系统 《视觉 机 器 人 、 无 人 机 、 智 能 语音 
机 器 人 ) 受 限 于 计算 资源 ， 仅 实现 前 向 传播 阶段 ， 而 反 向 传播 计算 则 由 计算 性 能 更 强大 的 服务 


11.1 前 向 传播 的 特点 








在 前 向 传播 阶段 ， 数 据 源 起 于 数据 读 取 层 ， 经 过 若干 处 理 层 ， 到 达 最 后 一 层 《〈 可 能 是 损失 
层 或 特征 层 )。 





网 络 中 的 权 值 在 前 向 传播 阶段 不 发 生变 化 ， 可 以 看 作 常 量 。 


imi 








网 络 路 径 是 一 个 有 向 无 环 图 (Directed AcyclineGraph，DAG)。 从 最 初 的 节点 出 发 ， 经 历 知 
于 处 理 层 ， 不 存在 循环 结构 ， 因 此 数据 流 会 一 直 向 前 推进 到 达 终 点 。 





我 们 可 以 使 用 数据 流 分 析 方 法 对 前 向 传播 过 程 进行 研究 ; 








从 输入 数据 集中 取 一 个 样本 (X, 门 ， 其 中 XX 为 数据 ， 了 为 标签 。 将 闻 送 入 网 络 ， 逐 层 计算 ， 
得 到 相应 的 网 络 处 理 输出 O。 网 络 执行 的 计算 可 以 用 公式 表达 为 : 
O=F C (FAE (AWW)... )Wn) 


HB, FLQd-d12,2cREESETEAETA, di W, 六 1,2,… 冯 表示 各 个 权 值 层 权 值 。 
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得 到 网 络 输出 O 后 , 可以 用 (Y O) 评 估 网 络 质量 。 理 想 的 网 络 满足 六 -=O。 





11.2 前 向 传播 的 实现 





在 Caffe 中 CNN 前 向 传播 过 程 由 Net + Layer 组 合 完成 ， 中 间 结 果 和 最 终结 果 则 使 用 Blob 
承载 。 下 面 我 们 深入 代码 来 观察 这 一 过 程 。 








11.2.1 DAG 构造 过 程 





首先 我 们 从 Net 构造 函数 开始 。 


// 从 NetParameter 对 象 构造 
template<typenameDt ype> 











' Net<Dtype>::Net (const NetParameter& param, const Net* root net) 
: root net (root net) [ 
Init(param); 
B 
// Mnet.prototxt 文件 构造 
template«typenameDtype» 
Net«Dtype»::Net(const string& param file, Phase phase, const Net* root net) 
: root net (root net) { 
NetParameterparam; 
ReadNetParamsFromTextFileOrDie(param file, &param); 
param.mutable state()-»set phase (phase); 


Init (param) ; 


从 上 面 的 构造 函数 看 到 ， 二 者 都 调用 了 Init0 函 数 。 传 递 给 该 函数 的 参数 param 是 
NetParameter 对 象 ， 我 们 已 经 在 第 8 天 的 例 程 中 使 用 过 ， 了 解 过 其 数据 结构 描述 (caffe.proto)。 
我 们 可 以 从 net.prototxt 文件 读 取 到 内 存 中 ， 初 始 化 一 个 NetParameter 对 象 ， 然 后 传递 给 Init() 








接着 追 忠 Init() 函 数 : 


// 这 个 函数 很 长 


template«typenameDtype» 





void Net«Dtype»::Init(const NetParameter& in param) { 


CHECK(Caffe::root solver() || root net ) 
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«« "root net needs to be set for all non-root solvers"; 
// 根据 NetParameter 对 象 设置 处 理 阶段 CTrain/Test) 
phase = in param.state().phase(); 
NetParameterfiltered param; 
FilterNet(in param, &filtered param); // 过 滤 一 些 参数 ， 仅 保留 当前 阶段 参数 
LOG IF(INFO, Caffe::root solver()) 
<< "Initializing net from parameters: "««std::endl 
<<filtered param.DebugString(); 
// 创建 一 个 拷贝 ， 以 后 就 用 它 了 
NetParameterparam; 
InsertSplits(filtered param, &param); 
// 构建 所 有 Layer 并 将 它们 连接 
name = param.name(); // 网 络 名 
map<string, int»blob name to idx; // Blob 名 与 索引 的 映射 
set<string>available blobs; // Uff Blob 名 集合 
memory used = 0; // 统计 内 存 占用 
// 对 每 个 Layer 设置 输入 Blob (BottomBlob) 和 输出 Blob (TopBlob) 
bottom vecs .resize(param.layer size()); // 有 多 少 层 ， 就 有 多 少 个 输入 Blob 
top vecs .resize(param.layer size()); // 有 多 少 层 ， 就 有 多 少 个 输出 Blob 
bottom id vecs .resize(param.layer size()); // 记录 每 个 层 的 输入 Blob 索引 
param id vecs .resize(param.layer size()); // 记录 每 个 层 的 权 值 Blob 索引 
top id vecs .resize(param.layer size()); // 记录 每 个 层 的 输出 Blob 索引 
bottom need backward .resize(param.layer size()); 
// 记 录 每 个 Blob 是 否 需要 反 向 传播 过 程 
for (int layer id = 0; layer id<param.1ayer size(); ++layer_id) 1{ 
// 遍历 每 个 层 
boolshare from root = !Caffe::root solver() 
&&root net -»layers [layer id]-»5ShareInParallel(); 
// 判断 该 层 是 否 设置 为 与 其 他 网 络 共享 
if (!param.layer(layer id).has phase()) { 
// 每 个 层 的 阶段 标记 ， 如 果 在 层 描述 中 未 指定 阶段 ， 就 使 用 Net 的 阶段 
param.mutable layer(layer id)->set phase(phase ); 
} 
// 获取 层 参数 
const LayerParameter& layer param = param.layer(layer id); 
// Layer 工厂 ， 专 业 制 造 各 种 Layer, 然 后 添加 到 Net 类 的 layers 対象 中 
// 注意 到 这 些 Layer 的 tayerParameter 都 继承 自 NetParameter 
layers .push back(LayerRegistry«Dtype»::CreateLayer(layer param)); 
// 将 Layer 名 称 添 加 到 Net 美的 layer names 対象 中 


ww ai bbt. com DODOODDOD 


183 


184 深度 学 习 : 21 XXX Caffe 


layer names .push back(layer param.name()); 
LOG IF(INFO, Caffe::root solver()) 
<< "Creating Layer "<< layer param.name(); 
bool need backward = false; // 判断 该 层 是 否 需要 反 向 传播 
// 确定 该 Layer 的 输入 Blob 和 输出 Blob . 
for (int bottom id = 0; bottom id<layer param.bottom size(); 
**bottom id) { 
// GAMA Blob ， 记 录 到 Blob BRA, Blob 名 到 索引 映射 中 
constin tblob id = AppendBottom(param, layer id, bottom id, 
&available blobs, &blob name to -idx); 
// 只 要 有 一 个 输入 Blob 需要 反 向 传播 ， 那 么 该 层 就 需要 反 向 传播 
need backward |= blob need backward [blob id]; 
} 
// 输出 Blob 做 同样 的 事情 
int num top = layer param.top size(); 
for (int top id = 0; top id«num top; ++top_id) { 
AppendTop(param, layer id, top id, &available blobs, &blob name to idx); 
// 收集 输入 层 (InputLayer) 信息 ， 如 果 有 ， 其 输出 blob 将 作为 整个 Net 的 输入 
if (layer param.type() == "Input") 1 
const int blob id - blobs .size() - 1; 
net input blob indices .push back(blob id); 
net input blobs .push back(blobs [blob id].get()); 


} 
// Layer 连接 设置 完毕 ， 调 用 各 个 Layer 的 SetUp() 函数 
layers [layer id]-»SetUp(bottom vecs [layer id], top vecs [layer id]); 
LOG IF(INFO, Caffe::root solver()) 
<< "Setting up "««layer names [layer id]; 

// 设置 输出 Blob 对 损失 函数 的 投票 因子 
for (int top id = 0; top id«top vecs [layer id].size(); **top id) { 

if (blob loss weights .size() <= top id vecs [layer id][top id]) { 

blob loss weights .resize(top id vecs [layer id][top id]! + 1, Dtype(0)); 

} 
blob loss weights [top id vecs [layer id] [top id]] = layer->loss(top_id); 
// 打印 每 层 输出 Blob 尺寸 信息 
LOG IF(INFO, Caffe::root solver()) 





<< "Top shape: "««top vecs [layer id][top id]-»shape string(); 
if (layer-»loss(top id)) { 
LOG IF(INFO, Caffe::root solver()) 
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eS with loss weight "<< layer-»loss(top id); 

// 信 不 信 由 你 ， 除 了 损失 层 的 loss weight 为 1， 其 他 层 都 是 0 

} 

// 统计 每 个 输出 Blob 内 存 占用 量 

memory used += top vecs [layer id][top id]-»count(); 
} 
// 打印 所 有 输出 Blob 内 存 占用 量 
LOG IF(INFO, Caffe::root solver()) 
"Memory required for data: "<<memory used * sizeof(Dtype); 
// 下 面 开 始 初始 化 各 层 权 值 Blob 
const int param size - layer param.param size(); 
const int num param blobs = layers [layer id]-»blobs().size(); 
// 保证 参数 配置 需要 的 权 值 Blob 数目 不 大 于 实际 对 象 的 权 值 Blob 数目 
CHECK LE(param size, num param blobs) 
"Too many params specified for layer "«« layer param.name(); 
ParamSpecdefault param spec; 
// 每 个 权 值 层 〈 卷 积 层 、 全 连接 层 ) 部 要 经 历 下 面 的 过 程 
for (int param id = 0; param id«num param blobs; ++param_id) | 


const ParamSpec* param spec = (param id<param size) ? 


&layer param.param(param id) : &default param spec; 


const bool param need backward = param spec-»lr mult() !- 0; 
// VE BUE param(lr mult: 0] 可 以 禁止 其 反 向 传播 过 程 ， 即 冻结 权 值 
need backward |- param need backward; 


layers [layer id]-»set param propagate down(param id, 


param need backward); 


} 

for (int param id = 0; param id«num param blobs; ++param_id) { 
// 记录 权 值 Blob 到 Net 后 台数 据 库 
AppendParam(param, layer id, param id); 

} 

// 最 后 设置 反 向 传播 标志 

layer need backward .push back(need backward); 

if (need backward) | 


for (int top id = 0; top id«top id vecs [layer id].size(): **top id) 1 





blob need backward [top id vecs [layer id][top id]] = true; 


} 
// 略 去 了 一 些 目前 不 关注 的 信息 ， 比 如 loss 设置 
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// 所 有 剩 下 的 Blob 都 被 看 作 输 出 Blob 
for (set<string>::iterator it = available blobs.begin(); 
it ls available blobs.end(); ++it) ( 
LOG IF(INFO, Caffe::root solver()) 


«« "This network produces output "«« *it; 





net output blobs .push back(blobs [blob name to idx[*it]].get()); 
net output blob indices .push back(blob name to idx[*it]); 

i 3 

// t Blob 名 称 与 Blob id 对 应 关系 登记 到 Net 后 台数 据 库 

for (size tblob id = 0; blob id«blob names .size(); **blob id) { 
blob names index [blob names [blob id]] = blob id; 

} 

/7 Yt Layer 名 称 Layer id 对 应 关系 登记 到 Net 后 台数 据 库 

for (size tlayer id = 0; layer id«layer names .size(); ++layer_id) { 
layer names index [layer names [layer id]] - layer id; 

} 

ShareWeights(); 





debug info = param.debug info(); 


LOG IF(INFO, Caffe::root solver()) «« "Network initialization done."; 


可 见 ，Init() 函 数 完成 了 非常 关键 的 网 络 初始 化 和 层 初始 化 操作 。 虽 然 代 码 很 长 ， 但 我 们 只 
要 抓 住 儿 个 核心 对 象 〈 在 表 8-1 中 列 出 )， 了 解 其 功能 并 密切 关注 其 动态 ， 即 可 掌握 Init0) 函 数 
的 执行 流程 和 具体 含义 。 在 该 函数 中 ， 调 用 了 3 个 登记 注册 函数 ， 我 们 继续 深入 阅读 其 代码 : 


// 登记 每 层 输 出 Blob 
template<typenameDtype> 
void Net«Dtype»::AppendTop(const NetParameter& param, const int layer id, 
const int top id, set«string»* available blobs, 
map«string, int»* blob name to idx) | 
Shared ptr«LayerParameter»layer param( 
newLayerParameter(param.layer(layer id))); 
const string& blob name = (layer param-^5top size() »top id) ? 
layer param-»top(top id) : "(automatic)"; 
// 检测 是 否 为 原 位 计算 
if (blob name to idx&&layer param->bottom size() >top id&& 
blob name == layer param-»bottom(top id)) { 
// 是 原 位 计算 
LOG IF(INFO, Caffe::root solver()) 


««layer param-»name() << " -> " ««blob name«« " (in-place)"; 
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top vecs [layer id].push back(blobs [(*blob name to idx) [blob name]].get()); 
top id vecs [layer id].push back((*blob name to idx)[blob name]); 





else if (blob name to idx&& 
blob name to idx-»find(blob name) != blob name to idx-»end()) | 

// 如 果 不 是 原 位 计算 ， 但 名 字 重 复 ， 则 报错 
LOG(FATAL) «« "Top blob '" ««blob name 
<< "' produced by multiple sources."; 

} else * 
// 正常 输出 
if (Caffe::root solver()) 1 

LOG (INFO) ««layer param-»name() << " -> " <<blob name; 
} 
shared ptr<Blob<Dtype>>blob pointer(new Blob<Dtype>()); 
// 新建 一 休 Blob, MAB] Net::blobs 最 后 
const int blob id = blobs .size(); 
blobs .push back(blob pointer); 
blob names .push back(blob name); 
blob need backward .push back(false); 
if (blob name to idx) { (*blob name to idx)[blob name] = blob id; } 
top id vecs [layer id].push back(blob id); 





top vecs [layer id].push back(blob pointer.get()); 
} 


if (available blobs) | available blobs->insert (blob name); } 


// 登记 每 层 输 入 Blob 
template«typenameDtype» 
int Net«Dtype»::AppendBottom(const NetParameter& param, const int layer id, 
const int bottom id, set<string>* available blobs, 
map«string, int>* blob name to idx) { 
const LayerParameter& layer param = param.layer(layer id); 
const string& blob name - layer param.bottom(bottom id); 
if (available blobs-»find(blob name) == available blebs->end()) | 
LOG(FATAL) «« "Unknown bottom blob '" ««blob name<< "' (layer '" 
<< layer param.name() << "', bottom index " ««bottom id«« ")"; 
} 
const int blob id = (*blob name to idx)[blob name]; 
LOG IF(INFO, Caffe::root solver()) 


くく 1ayer names [layer id] << " <- " <<blob name; 
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bottom vecs [layer id].push back(blobs [blob id].get()); 
bottom id vecs [layer id].push back(blob id); 





available blobs-»erase(blob name); 
boolpropagate down - true; 
// 检查 是 否 可 以 跳 过 反 向 传播 
if (layer param.propagate down size() > 0) 
propagate down - layer param.propagate down(bottom id); 
const bool need backward - blob need backward [blob id] && propagate down; 
bottom need backward [layer id].push back(need backward); 
return blob id; 
} 
// 登记 每 层 权 值 Blob 
template<typenameDtype> 
void Net<Dtype>: :AppendParam(const NetParameter& param, const int layer id, 
const int param id) { 
const LayerParameter& layer param = layers [layer _id]->layer_param(); 
const int param size - layer param.param size(); 
stringparam name = 
(param size»param id) ?layer param.param(param id).name() : ""; 
if (param name.size()) { 
param display names .push back(param name); 
) else { 
ostringstreamparam display name; 
param display name««param id; 
param display names .push back(param display name.str()); 
} 
const int net param id - params .size(); 
params .push back(layers [layer id]-»blobs()[param id]); 
param id vecs [layer id].push back(net param id); 
param layer indices .push back(make pair(layer id, param id)); 


ParamSpecdefault param spec; 


const ParamSpec* param spec = (layer param.param size() >param id) ? 
&layer param.param(param id) : &default param spec; 
if (!param size || !param name.size() || (param name.size() && 
param names index .find(param name) == param names index .end())) | 


// 该 层 拥有 权 值 Blob 
param owners .push back(-1); 
if (param name.size()) { 


param names index [param name] = net param id; 
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< 一 


<< 
<< 


<< 


<< 
<< 
<< 
<< 


<< 


<< 


<< 


<< 


} 
const int learnable param id = learnable params .size(); 
learnable params .push back(params [net param id].get()); 
learnable param ids .push back(learnable param id); 
has params lr .push back(param spec-»has lr mult()); 
has params decay .push back(param Spec->has decay mult()); 
params lr .push back(param spec->lr mult()); 
params weight decay .push back(param spec-»decay mult()); 
else { 
// 该 层 共享 权 值 Blob 
const int owner net param id = param names index [param name]; 
param owners .push back(owner net param id); 
const pair«int, int»&owner index = 

param layer indices [owner net param id]; 
const int owner layer id - owner index.first; 
const int owner param id - owner index.second; 
LOG IF(INFO, Caffe::root solver()) << "Sharing parameters '" ««param name 
"' owned by " 
"layer '" ««layer names [owner layer id] << "', param " 
"index "««owner param id; 
Blob«Dtype»* this blob = layers [layer id]-»blobs()[param id].get();: 
Blob<Dtype>* owner blob = 

layers [owner layer id]->blobs() [owner param id].get(); 
const int param size = layer param.param_size(); 
if (param size»param id&& (layer param.param(param id).share mode() -- 

ParamSpec DimCheckMode PERMISSIVE)) { 
// 检查 允许 的 维度 
CHECK EQ(this blob-»count(), owner blob-»count()) 

"Cannot share param '" ««param name«« "' owned by layer '" 
layer names [owner layer id] «« "' with layer '" 


layer names [layer id] << "'; count mismatch. Owner layer param " 


"shape is "««owner blob-»shape string() << "; sharing layer ": 
"shape is "««this blob-»shape string(); 
] else | 
// 严格 检查 允许 的 维度 
CHECK (this blob->shape() == owner blob-»shape()) 
"Cannot share param '" <<param name<< "' owned by layer '" 
layer names [owner layer id] << "' with layer '" 
layer names [layer id] «« "'; shape mismatch. Owner layer param " 
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<< "shape is "««owner blob-»shape string() << "; sharing layer " 
<< "expects shape "««this blob-»shape string(); 
} 
const int learnable param id = learnable param ids [owner net param id]; 


learnable param ids .push back(learnable param id); 





if (param spec-»has lr mult()) { 
if (has params lr [learnable param id]) { 


CHECK EQ(param spec-»lr mult(), params lr [learnable param id]) 


<< "Shared param '" ««param name«« "' has mismatched lr mult."; 
} else { 
has params lr {learnable param id] = true; 
params lr [learnable param id] = param spec-»lr mult(); 


} 
if (param spec->has decay mult()) { 
if (has params decay [learnable param id]) { 
CHECK EQ(param spec-»decay mult(), 
params weight decay [learnable param id]) 
<< "Shared param '" ««param name«« "' has mismatched decay mult."; 
) eise { 
has params decay [learnable param id] = true; 


params weight decay [learnable param id] = param spec-»decay mult(); 


11.2.2 Net Forward 实现 


掌握 了 前 一 节 的 内 容 ， 下 面 我 们 很 日 然 地 就 能 看 懂 Forward 代码 。 


template<typenameDtype> 
Dtype Net«Dtype»::ForwardFromTo(int start, int end) { 
// 计算 从 第 start 到 end 层 的 前 向 传播 过 程 
CHECK GE(start, 0); 
CHECK LT(end, layers .size()); 
Dtype loss - 0; 
for (int i = start; i<= end; ++i) 1 
// LOG(ERROR) << "Forwarding " <<layer names [i]; 
// 调用 每 个 Layer 的 Forward() 函数 ， 得 到 每 层 loss 
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Dtypelayer loss = layers [i]-»Forward(bottom vecs [i], top vecs [i]); 
loss *- layer loss; 
if (debug info ) | ForwardDebugInfo(i); | 

} 

// 返回 loss ff 


return loss; 


template<typenameDt ype> 
Dtype Net«Dtype»::ForwardFrom(int start) | 
// 计算 从 start 开始 到 最 后 一 层 的 前 问 传播 过 程 


return ForwardFromTo(start, layers .size() - 1); 


template<typenameDt ype> 
Dtype Net<Dtype>::ForwardTo(int end) { 
// 计算 从 第 一 层 到 第 end 层 的 前 向 传播 过 程 


return ForwardFromTo(0, end); 


template<typenameDt ype> 

const vector<Blob<Dtype>*>& Net<Dtype>::Forward(Dtype* loss) | 
// 计算 整个 网 络 前 向 传播 过 程 ， 返 回 损失 值 〈 可 选 》 和 网 络 箱 出 Blob 
if (loss != NULL) | 


*loss - ForwardFromTo(0, layers .size() - 1); 
) else ( 
ForwardFromTo(0, layers .size() 一 1); 


} 
return net output blobs ; 


template<typenameDt ype> 
const vector<Blob<Dtype>*>& Net<Dtype>: : Forward ( 
const vector<Blob<Dtype>*>& bottom, Dtype* loss) { 
// 接受 输入 Blob 作为 wet 和 输入， 计算 前 向 传播 ， 得 到 损失 值 (可 选 ) 和 网 络 输 出 Blob 
LOG EVERY N(WARNING, 1000) «« "DEPRECATED: Forward(bottom, loss) " 
<< "will be removed in a future version. Use Forward(loss)."; 
// 直接 将 输入 Blob 拷贝 到 net input blobs 中 


for (int i = 0; i«bottom.size(); ++i) |! 
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net input blobs [i]-»CopyFrom(*bottom[i]); 
) 


return Forward(loss); 


根据 以 上 几 个 不 同 版 本 的 Forward 函数 , 读者 应 该 能 够 在 脑海 中 形成 DAG 数据 流动 图 。 我 
们 明天 继续 深入 反 向 传播 过 程 。 


11.3 JA 


1. 阅读 每 个 Layer 的 SetUp() ri RUSE BI. 


2. 阅读 每 个 Layer 的 Forward cpu() E Slo. 
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使 用 传统 的 BP 算法 进行 CNN 训练 时 包括 两 个 阶段 : 前 向 传播 计算 (Forward) 和 反问 传 
播 计算 (Backward)。 今 天 我 们 将 注意 力 放 在 反 辐 传播 阶段 。 


当 我 第 一 次 在 一 台 联 想 笔 记 本 电脑 ( 带 独 显 Geforce 610M) 上 将 Caffe 编译 成 功 时 ， 想 第 
一 时 间 运 行 训练 任务 , 用 了 一 天 时 间 将 ImageNet 数据 集 转换 为 LEVELDB. 然而 训练 十 分 缓慢 ， 
同事 对 我 说 ， 你 的 笔记 本 电脑 计算 能 力 太 低 ， 不 妨 只 运行 前 向 预测 任务 。 后 来 使 用 公司 服务 器 
( 带 双 GPU TeslaK80)， 单 机 四 卡 运行 训练 任务 速度 提升 显著 。 


反 向 传播 过 程 只 有 在 训练 环境 下 才 需 要 计算 ， 由 于 消耗 时 间 较 长 ， 对 计算 资源 要 求 较 高 ， 
一 般 为 离线 服务 。 





1231 反 向 传播 的 特点 


CNN 进行 前 向 传播 阶段 ， 依 次 调用 每 个 Layer 的 Forward 函数 ， 得 到 逐 层 的 输出 ， 最 后 一 
层 与 目标 函数 比较 得 到 损失 函数 ， 计 算 误差 更 新 值 ， 通 过 反 向 传播 路 径 逻 层 到 达 第 一 层 ， 所 有 
权 值 层 在 反 向 传播 结束 后 一 起 更 新 。 


12.2 ine 


损失 层 (Loss Layer) 是 CNN 的 终点 ， 接 受 两 个 Blob 作为 输入 ， 其 中 一 个 为 CNN 的 预测 
值 ; 另 一 个 是 真实 标签 。 损 失 层 则 将 这 两 个 输入 进行 一 系列 运算 , 得 到 当前 网 络 的 损失 函数 (Loss 
Function), 一 般 记 为 L(， 其 中 兵 示 当前 网 络 权 值 构成 的 向 量 空间 。 机 器 学 习 的 目的 是 在 权 值 


空间 中 找到 让 损失 函数 CC9 最 小 的 权 值 和 rs， 可 以 采用 一 系列 最 优化 方法 〈 如 后 面 将 会 介绍 的 
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SGD 方法 ) 逼近 权 值 Qnr 

损失 函数 是 在 前 向 传播 计算 中 得 到 的 ， 同 时 也 是 反 向 传播 的 起 点 。 
12.2.1 算法 描述 


Caffe 中 实现 了 多 种 损失 层 ， 分 别 用 于 不 同 场 合 。 其 中 SoftmaxWithLossLayer 实现 了 
Softmax+ 交 叉 焙 损 失 函 数 计算 过 程 ， 适 用 于 单 label 的 分 类 问题 ; 另外 还 有 欧式 损失 函数 〈 用 于 
回归 问题 )、Hinge 损失 函数 (最 大 间隔 分 类 ，SVM)、Sigmoid + 交叉 烂 损失 函数 (用 于 多 属性 
/多 分 类 问题 ) 等 。 今天 我 们 只 关注 最 基本 的 SoftmaxWithLossLayer， 其 他 损失 层 的 算法 可 以 直 
接 看 Caffe 相应 源码 。 


假设 有 个 类 别 ，Softmax 计算 过 程 为 : 


exp(a; ) 


> jexp(a;) 


Soft max(a; ) = ,i=0,1,2,---,K -I 
Softmax 的 结果 相当 于 输入 图 像 被 分 到 每 个 标签 的 概率 分 布 。 根 据 高 等 数学 知识 ， 该 函数 
是 单调 增 函 数 ， 即 输入 值 越 大 ， 输 出 也 越 大 ， 输 入 图 像 属 于 该 标签 的 概率 就 越 大 。 


对 Softmax 的 结果 计算 交叉 入 分 类 损失 函数 为 : 


L(0) -— J log[Sof max(a, )17 = 0.1.2.…、W 1 


其 中 , 大 为 真实 标签 值 ，N 为 一 个 批量 的 大 小 。 

TIPS: Caffe 一 些 不 为 人 知 的 数字 

理想 的 分 类 器 应 当 是 除了 真实 标签 的 概率 为 1。 其 余 标签 概率 均 为 0, 这 样 计 算得 到 其 损失 
函数 为 -In(1) = 0。 损失 函数 起 大， 说明 该 分 类 器 在 真实 标签 上 分 类 概率 越 小 ， 性 能 也 就 越 差 。 
一 个 非常 差 的 分 类 器 ， 可 能 在 真实 标签 上 的 分 类 概率 接近 于 0， 那么 损失 函数 就 接近 于 正 无 穷 ， 
我 们 称 为 训练 发 散 ， 需 要 调 小 学 习 速 率 . 在 ImageNet-1000 分 类 问题 中 ,初始 状态 为 均匀 分 布 ， 
每 个 类 别 的 分 类 概率 均 为 0.001， 故 此 时 计算 损失 函数 值 为 -in(0.001) = In(1000) = 6.907755...。 
经 常 有 同学 问 ,“ 我 的 loss 为 什么 总 是 在 6.9 左右 ( 该 现象 被 称 为 6.9 高原 反応 ), 训练 了 好 久 都 
不 下 降 呢 ? ”说 明 还 都 没有 训练 收 伊 的 迹象 ， 尝 试 调 大 学 习 速 率 ， 或 者 修改 权 值 初始 化 方式 。 
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12.2.2 ”参数 描述 


先 看 一 下 caffe.proto， 找 到 有 关 Softmax 的 消息 定义 : 


// FAY: SoftmaxLayer, SoftmaxWithLossLayer 
message SoftmaxParameter { 
// 计算 引擎 选择 
enum Engine { 
DEFAULT - 0; 
CAFFE = 1; 
CUDNN = 2;// 使 用 CUDNN 计算 引擎 


} 
optional Engine engine = 1 [default = DEFAULT]; // 默认 为 0 
// axis 为 可 选 参数 ， 指 定 沿 哪 个 维度 计算 softmax， 可 以 是 负数 ， 表 示 从 后 向 前 索引 


optional int32 axis = 2 [default = 1]; 


12.2.3 源码 分 析 


损失 层 的 基 类 声明 于 include/caffe/loss layers.hpp 中 : 


// 损失 层 的 鼻祖 类 ， 派 生 于 Layer 
template<typenameDt ype> 
classLossLayer : public Layer<Dtype> { 
public: 
// 显 式 构造 函数 
explicit LossLayer(const LayerParameter& param) 
Layer«Dtype» (param) { 
// 层 配 置 函 数 


virtual void LayerSetUp( 


const vector«Blob«Dtype»*»& bottom, const vector«Blob«Dtype»*»& top); 


// 变形 函数 


virtual void Reshape ( 


const vector«Blob«Dtype»*»& bottom, const vector<Blob<Dtype>*>é& top); 


// FES Blob 作为 输入 


virtual inline int ExactNumBottomBlobs() const { return 2; } 


195 


// 为 了 方便 和 后 向 兼容 ， 指 导 Net 为 损失 层 自 动 分 配 单个 得 出 Biob， 损 失 层 则 会 将 计算 结果 工 ( 保存 在 这 里 


virtual inline bool AutoTopBlobs() const { return true; } 
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// 只 有 一 个 输出 Blob 
virtual inline int ExactNumTopBlobs() const ( return 1; } 
// 我 们 经 常 不 能 对 标签 做 反 向 传播 计算 ， 故 忽略 force backward 
virtual inline bool AllowForceBackward(const int bottom index) const { 
return bottom index !- 1; 
} 
E 


用 来 计算 Softmax 损失 函数 的 层 SoftmaxLayer 声明 在 include/caffe/layers/softmax layerhpp 
中 。 


//SoftmaxLayer 直接 派生 于 Layer 
template<typenameDt ype> 
class SoftmaxLayer : public Layer<Dtype> { 
public: 
// 显 式 构造 函数 
explicit SoftmaxLayer(const LayerParameter& param) 
Layer«Dtype»(param) |) 
// 变形 函数 
virtual void Reshape(const vector<Blob<Dtype>*>& bottom, 
const vector<Blob<Dtype>*>& top); 
// 返回 类 名 字符 串 
virtual inline const char* type() const { return "Softmax"; } 
// 该 层 接受 一 个 输入 Blob， 产 生 一 个 输出 Blob 
virtual inline int ExactNumBottomBlobs() const ( return 1; ] 


virtual inline int ExactNumTopBlobs() const { return 1; ) 


protected: 
// 前 向 传播 函数 
virtual void Forward cpu(const vector<Blob<Dtype>*>& bottom, 
const vector<Blob<Dtype>*>& top); 
virtual void Forward gpu(const vector<Blob<Dtype>*>& bottom, 
const vector<Blob<Dtype>*>& top); 
// 反 向 传播 函数 
virtual void Backward cpu(const vector<Blob<Dtype>*>& top, 
const vector«bool^&propagate down, const vector<Blob<Dtype>*>& bottom); 
virtual void Backward gpu (const vector«Blob«Dtype»*»& top, 
const vector<bool>&propagate down, const vector<Blob<Dtype>*>& bottom); 
// 计算 参数 


int outer num ; 
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int inner num ; 

int softmax axis ; 

// 利 用 BLAS 计算 求 和 
Blob«Dtype»sum multiplier ; 
/7 用 来 临时 存放 中 间 结 果 的 Blob 
Blob«Dtype» scale ; 


SoftmaxLayer 实现 在 src/caffe/layers/softmax layercpp 中 ,我 们 深入 内 部 来 看 一 下 具体 实现 : 


// 变形 函数 
template<typenameDt ype> . 
void SoftmaxLayer«Dtype»::Reshape (const vector<Blob<Dtype>*>& bottom, vector<Blob<Dtype> 
*»* top) 
{ 

(*top) [0] ->Reshape (bottom[0]-»num(), bottom[0]-»channels(), bottom[0]-»height(), 
bottom[0]-»width()); 


// Softmax 层 的 输出 与 输入 尺寸 大 小 一 致 
sum multiplier .Reshape(1, bottom[0]-»channels(), 1, 1); 
// sum multiplier 尺寸 : 1 * channels * 1 * 1， 值 全 为 1 
Dtype* multiplier data - sum multiplier .mutable cpu data(); 
for (int i = 0; i«sum multiplier .count(); ++i) 
{ 
multiplier data[i] = 1.; 
} 
// scale JX}: num* 1 * height * width 
scale .Reshape(bottom[0]-»num(), 1, bottom[0]->height(), bottom[0]-»width()): 


// 前 向 计算 ， 得 到 softmax(a_k) fü 
template<typenameDtype> 
void SoftmaxLayer<Dtype>::Forward cpu (const vector<Blob<Dtype>*>& bottom, vector<Blob 
<Dtype>*>* top) | 
{ 
// 获得 输入 /输出 Blob 数据 指针 
const Dtype* bottom data = bottom[0]-»cpu data(); 
Dtype* top data = (*top)[0]-»mutable cpu data(); 
Dtype* scale data - scale .mutable cpu data(); 
int num = bottom[0]-»num(); 


int channels - bottom[0]-»channels(); 
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int dim = bottom[0]-»count() / bottom[0]-»num(); // 总 的 类 别 数目 
int spatial dim = bottom[0]->height() * bottom[0]-»width(); 
// 信 不 信 由 你 ， 如 果 前 一 层 是 全 连接 层 ，spatial_dim 总 为 1 
// 先 将 输入 拷贝 到 输出 缓冲 区 
caffe copy(bottom[0]->count(), bottom data, top data); 
// 减 去 最 大 值 ， 避 免 数 值 问 题 ， 计 算 指数 ， 归 一 化 
for (int i = 0; i«num; ++i) 
{ 

// 初始 化 scale 的 data 域 为 第 一 个 平面 

caffe copy(spatial dim, bottom data * i * dim, scale data); 

for (int j = 0; j < channels; j++) 

{ 
for (int k = 0; k <spatial dim; k++) 
{ 


scale data[k] = std::max(scale data[k], bottom data[i * dim + j * spatial_dim+k]); 


} 

// 输出 缓冲 区 减 去 最 大 值 a k = a_k- max (a_i) 

caffe cpu gemm«Dtype»(CblasNoTrans, CblasNoTrans, channels, spatial dim, 1, -1 
sum multiplier .cpu data(), scale data, 1., top data + i * dim); 

// 求 指数 项 exp (a_k) 

caffe exp く Dtype> (dim, top data + i * dim, top data + i * dim); 

// R 1 + exp(a k) 


oF 


caffe cpu gemv«Dtype»(CblasTrans, channels, spatial dim, 1., top data + i * dim, 
sum multiplier .cpu data(), 0., scale data); 


// 3K Softmax[fü, B exp(a k)/(1 + exp(a k)) 
for (int j = 0; j < channels; j++) 
{ 


caffe div(spatial dim, top data + (*top)[0]-»offset(i, j), scale data, top data + 
(*top) [0]-»offset(i, j)); 


} 


// Softmax 的 反 向 传播 函数 ， 要 学 会 求 导 法 则 

template<typenameDtype> 

void SoftmaxLayer«Dtype»::Backward cpu(const vector<Blob<Dtype>*>& top, 
const vector«bool»&propagate down, 


vector<Blob<Dtype>*>* bottom) 
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// 获得 data. ditt 指针 
const Dtype* top diff = top[0]-»cpu diff(); 
const Dtype* top data = top[0]->cpu_data(); 
Dtype* bottom diff = (*bottom)[0]-»mutable cpu diff(); 
Dtype* scale data - scale .mutable cpu data(); 
int num = top[0]-»num(); 
int channels = top[0]-»channels(); 
int dim = top[0]-»count() / top[0]->num(); 
int spatial dim = top[0]->height() * top[0]-»width(); 
caffe copy(top[0]-»count(), top diff, bottom diff); 
for (int i = 0; i«num; ++i) { 
// 计算 top diff Ñ top data 的 点 积 ， 然 后 从 bottom diff PRAXE 
for (int k = 0; k <spatial_dim; ++k) 
{ 
scale data[k] = caffe_cpu_strided_dot<Dtype>(channels, 
bottom diff + i * dim + k; spatial dim, 
top data * i * dim * k, spatial dim); 
} 
// 减 值 
caffe cpu gemm<Dtype> (CblasNoTrans, CblasNoTrans, channels, spatial dim, 1, 
-1., sum multiplier .cpu data(), scale data, 1., bottom diff * i * dim); 
} 
/7 逐 点 相 乘 
caffe mul(top[0]-»count(), bottom diff, top data, bottom diff); 


看 完了 Softmax 函数 的 计算 过 程 , 那么 损失 层 SoftmaxWithLossLayer 的 实现 就 非常 简单 了 ， 
找到 SoftmaxWithLossLayer 的 声明 如 下 : 


// 前 置 声 明 SoftmaxLayer,， 便 十 SoftmaxWithLossLayer 使用 
template<typenameDtype> class SoftmaxLayer; 
// 将 实数 预测 向 量 通过 Softmax 计算 获得 每 个 类 别 的 概率 分 布 
// 这 个 类 比 单 独 SoftmaxLayer + MultinomialLogisticLossLayer 在 梯度 数值 计算 上 更 加 稳定 
// Test 阶段 ， 这 个 层 可 以 直接 用 SoftmaxLayer 代替 
/ 
* 输入 Blob 1 为 预测 结果 ， 形 状 为 N x K x 1 x 1，K 为 总 类 别 数目 ，N 为 批量 数 。 取 值 范围 为 (-Inf，Inf)， 
* 表示 每 个 类 别 获 得 的 分 类 score， 值 越 大 说 明 输 入 图 像 与 该 类 别 越 接近 
* 输入 Blob 2 为 真实 标签 ， 形状 为 Nx 1 x 1 x 1 
* 输出 Blob 为 计算 得 到 的 交叉 灶 分 类 损失 E, 形状 为 ] x 1 x 1 x 1 
my 
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template<typenameDtype> 
class SoftmaxWithLossLayer : public LossLayer<Dtype> { 
public: 
explicit SoftmaxWithLossLayer(const LayerParameter& param) 
: LossLayer«Dtype» (param) {} 
virtual void LayerSetUp(const vector<Blob<Dtype>*>& bottom, 
const vector«Blob«Dtype»*»& top); 
virtual void Reshape (const vector<Blob<Dtype>*>& bottom, 


const vector<Blob<Dtype>*>& top); 


virtual inline const char* type() const { return "SoftmaxWithLoss"; ] 
virtual inline int ExactNumTopBlobs() const ( return -1; } 
virtual inline int MinTopBlobs() const { return 1; } 


virtual inline int MaxTopBlobs() const { return 2; } 


protected: 
/// @copydocSoftmaxWithLossLayer 
virtual void Forward cpu(const vector<Blob<Dtype>*>& bottom, 
const vector<Blob<Dtype>*>& top); 
virtual void Forward gpu(const vector<Blob<Dtype>*>& bottom, 
const vector<Blob<Dtype>*>& top); 
virtual void Backward cpu(const vector<Blob<Dtype>*>& top, 
const vector«bool»&propagate down, const vector<Blob<Dtype>*>& bottom); 
virtual void Backward gpu(const vector<Blob<Dtype>*>& top, 


const vector<bool>&propagate down, const vector<Blob<Dtype>*>& bottom); 


/// 内 和 置 一 个 SoftmaxLayer 対象 

shared ptr<Layer<Dtype>>softmax layer ; 
/// prob 用 于 存储 SoftmaxLayer 计算 的 分 类 预测 结果 
Blob<Dtype>prob ; 

/// 

vector<Blob<Dtype>*>softmax bottom vec ; 

/// 

vector«Blob«Dtype»*»softmax top vec ; 

CLT 

bool has ignore label ; 

/// 


int ignore label : 
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bool normalize ; 


int softmax axis , outer num , inner num ; 


E 





HEN SetUp 过 程 如 下 : 


template<typenameDtype> 
void SoftmaxWithLossLayer<Dtype>: :LayerSetUp ( 
const vector<Blob<Dtype>*>& bottom, const vector<Blob<Dtype>*>& top) { 
LossLayer<Dtype>::LayerSetUp (bottom, top); 
// 创建 时 动态 修改 本 层 的 LayerParameter 参数 ， 适 应 SoftmaxLayer 
LayerParametersoftmax param(this-»layer param ); 
softmax param.set type ("Softmax"); 
// 创建 SoftmaxLayer 
softmax layer = LayerRegistry<Dtype>: :CreateLayer (softmax param); 
softmax bottom vec .clear(); 
softmax bottom vec .push back(bottom[0]); 
softmax top vec .clear(); 
softmax top vec .push back(&prob ); 
softmax layer -»SetUp(softmax bottom vec , softmax top vec ); 


// 剩 下 的 不 关心 …… 


可 见 ， 在 SetUp 阶段 ， 创 建 了 内 部 SoftmaxLayer 对 象 并 配置 了 其 输入 /输出 Blob， 然 后 调 
用 该 对 象 的 SetUp 函数 。 


下 面 看 看 SoftmaxWithLossLayer 的 前 向 传播 函数 : 


// 前 向 传播 
template<typenameDtype> 
void SoftmaxWithLossLayer«Dtype»::Forward cpu( 
const vector«Blob«Dtype»*»& bottom, const vector<Blob<Dtype>*>& top) { 
// 内 部 SoftmaxLayer 的 前 向 传播 计算 
Softmax layer -»Forward(softmax bottom vec , softmax top vec ) 
// 获得 概率 密度 
const Dtype* prob data = prob .cpu data(); 
// 获得 标签 值 
const Dtype* label = bottom[1]->cpu data(); 
int dim - prob .count() / outer num ; 


int count = 0; 
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Dtype loss - 0; 
for (int i = 0; i«outer num ; ++i) { 
for (int j = Op 7 «inner num ; j++) A 
const int label value = static cast«int»(label[i * inner num + jl); 
if (has ignore label  &&label value == ignore label ) | 
continue; 
) 
DCHECK GE(label value, 0) ; 
DCHECK LT(label value, prob .shape(softmax axis )); 
// 计算 损失 函数 -log (prob [1abell) 
loss -= log(std::max(prob data[i * dim + label value * inner num + j], 
Dtype(FLT MIN))); 


**count; 


} 
// 设置 输出 Blob ff 
top[0]-»mutable cpu data()[0] = loss / get normalizer(normalization , count); 
if (top.size() == 2) { 
top[1]-»ShareData (prob ); 


可 见 通过 内 部 SoftmaxLayer 对 象 非常 简洁 。 我 们 再 看 一 下 Backward 计算 : 


template«typenameDtype» 
void SoftmaxWithLossLayer«Dtype»::Backward cpu(const vector«Blob«Dtype»*»& top, 
const vector<bool>&propagate down, const vector<Blob<Dtype>*>& bottom) { 
if (propagate down[1]) 1 
// label {A Blob 不 做 反 向 传播 
LOG (FATAL) << this->type() 
<<" Layer cannot backpropagate to label inputs."; 
} 
if (propagate down[0]) { 
Dtype* bottom diff = bottom[0]-»mutable cpu diff(); 
const Dtype* prob data = prob .cpu data(); 
// 将 概率 密度 拷贝 到 输入 Blob 的 ditt 域 
caffe copy (prob .count(), prob data, bottom diff); 
const Dtype* label = bottom[1]->cpu data(); 
int dim = prob .count() / outer num ; 


int count - 0; 
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for (int i = 0; i«outer num ; ++i) { 
for (int = 0; J «Xmner num ; tj) { 
const int label value = static cast«int»(label[i * inner num + jl)? 
if (has ignore label  &&label value -- ignore label ) | 
for (int c = 0; c < bortom[0]-»shape(softmax axis ); ++c) { 
bottom diff[i * dim + c * inner num + j] = 0; 
} 
] else | 
// 在 输入 Blob 的 diff 域 ， 计 算 当 前 概率 密度 与 理想 概率 密度 (1abe1 对 应 类 别 概率 为 +, 其他 美 別 
概率 为 0) 之 差 ， 实 现 误 差 反 向 传播 
bottom diff[i * dim + dabel value * inner num + j] -= 1; 


*tcount; 


} 
// 适当 缩放 
Dtypeloss weight = top[0]->cpu_diff() [0] / 
get normalizer(normalization , count); 


caffe scal(prob .count(), loss weight, bottom diff); 


通过 对 Caffe 损失 层 的 研究 ， 我 们 了 解 到 ， 前 向 传播 阶段 数据 逐 层 传播 ， 到 损失 层 计算 预 
测 概率 密度 和 损失 函数 ; 而 反问 传播 阶段 则 从 损失 层 开始 , 由 预测 概率 密度 与 理想 概率 密度 (这 
就 是 有 监督 学 习 的 佐证 ) 差 值得 到 误差 (diff)， 然 后 将 由 下 一 节 内 容 逐 层 反 向 传播 。 我 们 已 经 
知道 一 个 Blob 是 由 data 和 diff 两 部 分 构成 的 ， 如 果 说 数据 读 取 层 是 data 之 源 ， 那 么 损失 层 就 
是 diff L Ui. 











12.3 Jz[OGMETSBSNSCEN 


我 们 接 上 昨天 介绍 的 内 容 ， 继 续 深入 研究 Caffe Net 数据 结构 中 的 Backward 函数 。 


// 从 第 start 层 反 向 传播 到 达 第 end Jk, start >= end 
template<typenameDt ype> 
void Net«Dtype»::BackwardFromTo(int start, int end) { 
CHECK GE(end, 0); 
CHECK LT(start, layers .size()); 
for (int i = start; i»- end; --i) | 


if (layer need backward [i]) 


{ 
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// 遍历 每 个 层 ， 调 用 相应 的 Backward 函数 
layers [i]-»Backward( 
top vecs [i], bottom need backward [i], bottom vecs [i]); 


if (debug info ) { BackwardDebugInfo(i); } 


} 
// 从 第 start 层 开始 到 第 一 层 的 反 向 传播 过 程 
template<typenameDtype> 
void Net<Dtype>::BackwardFrom(int start) { 
BackwardFromTo(start, 0); 
! 
// 从 最 后 一 层 开始 到 第 ena 层 的 反 向 传播 过 程 
template<typenameDtype> 
void Net<Dtype>::BackwardTo(int end) { 
BackwardFromTo(layers .size() - 1, end); 
} 
// 整个 网 络 的 反 向 传播 过 程 
template<typenameDtype> 
void Net<Dtype>::Backward() { 
BackwardFromTo(layers .size() - 1, 0); 
if (debug info ) { 
// 如 果 打 开 了 调试 信息 开关 《在 prototxt 中 设 定 )， 则 计算 所 有 权 值 的 data/ditf 的 L1. L2 范 数 ， 监 控 
其 变化 情况 ， 避 免 发 散 
Dtypeasum data = 0, asum diff = 0, sumsq data = 0, sumsq diff = 0; 
for (int i = 0; i« learnable params .size(); ++i) { 
asum data += learnable params [1]->asum data(); 
asum diff += learnable params [i]-»asum diff(); 
sumsq data += learnable params [1]->sumsq data(); . 
sumsq diff += learnable params [1]->sumsq diff(); 
} 
const Dtype l2norm data = std::sqrt(sumsq data); 


const Dtype l2norm diff = std::sgrt(sumsq diff); 


LOG(ERROR) «« " [Backward] All net params (data, diff): " 
«« "Ll norm - (" ««asum data«« ", " ««asum diff«« "); " 
<< "L2 norm = (" << 12norm data << ", " << l2norm diff << ")"; 


} 
} 
// 更 新 权 值 函 数 ， 在 反 向 传播 结束 后 调用 


template«typenameDtype» 
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void Net«Dtype»::Update() 1 
for (int i = 0; i< learnable params .size(); ++i) { 
// 调用 内 部 Blob 的 Update () 函数 ， 具 体 计算 为 data = data - diff, 参考 第 8 天 的 例 程 


learnable params [i]-»Update(); 


} 
// PUB diff 清 零 
template«typenameDtype» 
void Net«Dtype»::ClearParamDiffs() { 
for (int i = 0; i< learnable params .size(); ++i) { 
Blob<Dtype>* blob = learnable params [i]; 
switch (Caffe::mode()) { 
caseCaffe::CPU: 
caffe set(blob-»count(), static cast«Dtype»(0), 
blob-»mutable cpu diff()); 
break; 
caseCaffe::GPU: 
#ifndef CPU ONLY 
caffe gpu set(blob-»count(), static cast«Dtype»(0), 
blob-»mutable gpu diff()); 


我 们 通过 今天 的 内 容 ， 知 道 了 Caffe 反 向 传播 的 来 龙 去 脉 ， 对 于 设计 更 复杂 的 有 监督 学 习 
算法 具有 指导 意义 。 读 者 可 以 深入 阅读 其 他 机 器 学 习 理 论 书籍 或 学 术 论 文 ， 并 尝试 利用 Caffe 
实现 。 经 历 这 样 一 个 过 程 ， 你 会 成 为 优秀 的 机 器 学 习 算 法 工程 师 。 


12.4 AJA 


1. Caffe 在 计算 Softmax 时 ， 如 何 避 免 数 值 不 稳定 ? 


2. 如 果 一 个 机 器 人 对 N 分 类 问题 采用 随机 猜测 的 方式 分 类 ， 假 设 猜 对 每 个 类 别 的 概率 都 
是 MHN， 那 么 Top-K EHR KN) 应 该 为 多 少 ? 
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3. 如果 用 Caffe 做 ImageNet-22K 分 类 问题 ， 损 失 层 采用 SoftmaxWithLoss， 那 么 初始 状态 
的 损失 函数 值 应 该 是 多 少 ? Cifar-10 和 Cifar-100 呢 ? 





4. 阅读 每 个 Layer 中 Backward cpu0 函 数 的 实现 。 


5. 思考 Blob 中 的 data 和 di 他 能 否 合 并 为 一 个 ? 
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Caffe 最 优化 求解 过 程 


将 前 面 几 天 讲述 的 不 同 Layer 组 名 tte ee met tie 
Solver 类 入 手 ， 对 Caffe 训练 时 的 流程 做 深入 分 析 ， 也 就 是 看 Caffe 实际 是 如 何 “ 动 ”起 来 的 。 


13.31 求解 器 是 什么 
从 前 两 天 内 容 我 们 学 习 到 ，Net 已经 完成 部 分 学 习 任 务 (数据 前 向 传播 、 误 差 反 向 传播 )。 
而 CNN 剩 下 有 监督 的 优化 过 程 、 利 用 每 层 的 梯度 生成 权 值 增 量 则 由 求解 器 (Solver) 负责 。 


求解 器 负责 对 模型 优化 ， 它 的 KPI (Key Performance Indicator， 关 键 绩 效 指标 ， 某 些 公司 
常用 的 一 种 员工 绩效 评定 方式 ) 就 是 让 损失 函数 达到 全 局 最 小 。 


求解 器 的 特性 如 下 : 
2 负责 记录 优化 过 程 ， 创 建 用 于 学 习 的 训练 网 络 和 用 于 评估 学 习 效 果 的 测试 网 络 。 
O 调用 Forward 一 调用 Backward 一 更 新 权 值 ， 反 复 迭 代 优 化 模型 。 
2 周期 性 地 评估 测试 网 络 。 
O 在 优化 过 程 中 为 模型 、 求 解 器 状态 打 快 照 。 
为 了 让 权 值 从 初始 化 状态 向 着 更 好 的 模型 前 进 ， 求 解 器 在 每 次 迭代 中 做 了 如 下 事情 : 
O 调用 Net 的 前 向 传播 函数 来 计算 输出 和 损失 函数 。 
O 调用 Net 的 反 向 传播 函数 来 计算 梯度 。 
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> 根据 求解 器 方法 ， 将 梯度 转换 为 权 值 增 量 。 

> 根据 学 习 速 率 、 历 史 权 值 、 所 用 方法 更 新 求解 器 状态 。 
13.2 ”求解 器 是 如 何 实现 的 


在 卷 积 神经 网 络 中 ， 有 两 种 类 型 的 层 需要 学 习 : 卷 积 层 和 全 连接 层 〈 统 称 权 值 层 ， 因 为 它 
们 都 有 weight 参数 )。 在 设计 求解 器 时 ， 学 习 速 率 参数 的 设置 也 是 针对 这 两 个 层 的 。 


我 们 都 知道 两 个 成 语 : GE AR EE, tha See “E”. E Caffe 中 ， 这 个 
“ 度 ” 就 是 控制 收敛 的 参数 一 一 学 习 速率 。 





我 们 来 具体 看 一 下 Caffe 是 如 何 对 权 值 学 习 做 到 “不 偏 不 倚 ” 的 。 
13.2.1 算法 描述 

Caffe 中 的 求解 器 有 以 下 几 种 : 

O 随机 梯度 下 降 法 (Stochastic Gradient Descent，SGD)， 最 常用 的 一 种 

う AdaDelta 

O 自 适 应 梯度 法 (Adaptive Gradient, ADAGRAD) 

う Adam 


う Nesterov 加 速 梯度 法 (Nesterov's Accelerated Gradient, NAG) 


2 RMSprop 
求解 器 方法 重点 是 最 小 化 损失 函数 的 全 局 优化 问题 ， 对 于 数据 集 D， 优 化 目标 是 在 全 数据 
集 D 上 损失 函数 平均 值 : 
[| 
LW) rx E+ ar) 


其 中 ， 太 0) 是 在 数据 实例 站 "上 的 损失 函数 ， 押 为 规整 项 ，24 为 规整 项 的 权重 。 数 据 集 
D 可能 非常 大 , 工程 上 一 般 在 毎 次 送 代 中 使用 送 條 目 酸 画 数 的 随 机 山 近 , 即 小 批量 数据 N << |D| 
个 数据 实例 ， 
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N 
LOW) s XK) Ar) 
模型 在 前 向 传播 计算 损失 函数 f,， 反 向 传播 计算 梯度 V1,, 。 权 值 增 量 AW 由 求解 器 通过 误 
差 梯 度 Vf,, 、 规 整 项 梯度 Vr( 画 )， 以 及 其 他 与 方法 相关 的 项 求解 得 到 。 
随机 梯度 下 降 法 ‘SGD) 利用 负 梯 度 VL(V) 和 权 值 更 新 历史 万 的 线性 组 合 更 新 权 值 W. 
学 习 速率 (Learning Rate, LR) a 是 负 梯 度 的 权重 ,遗忘 因子 (Momentum) /是 权 值 更 新 
历史 万 的 权重 。 顾 名 思 义 ， 学 习 速 率 和 遗忘 因子 分 别 代表 今天 学 了 多 少 新 知识 ， 以 及 以 前 学 过 
的 知识 还 记得 多 少 。 有 些 同学 学 习 新 知识 很 快 ， 忘 得 也 快 ; 而 有 些 同学 虽然 学 得 慢 ， 但 记得 牢 ， 
在 这 里 是 一 个 道理 。 
己 知 第 1 次 迭代 的 所 和 权 值 所 ， 用 如 下 公式 可 以 计算 出 第 tt1 次 迭代 的 Vw 和 WAN: 
Vi = uV, - av L(W,) 
Wia ZW, Va 
为 了 达到 最 优 学 习 效果 ， 学 习 过 程 的 “ 超 参 数 ”(hyperparameter， 这 里 为 w 和 /) 需要 仔细 
调节 ， 其 指导 原则 为 : 
(1) 初始 学 习 速 率 @ = 0.01=10”。 经 过 迭代 训练 ， 当 损失 函数 不 再 下 降 时 ， 对 w 进 行 固定 
常数 衰减 (如 乘 上 0.1)， 如 此 反复 贯穿 训练 始终 。 
(2) HOSP w= 0.9 。 遗 忘 因子 可 以 随 着 迭代 对 权 值 增 量 进行 平滑 ,这 样 可 以 让 基于 SGD 
算法 的 深度 学 习 系统 更 稳定 、 收 和 敛 更 快 。 
下 面 例子 是 Krizhevsky 在 ILSVRC 2012 比赛 中 获胜 的 学 习 策 略 。 在 Caffe 中 实现 该 策略 非 
常 简 单 ， 只 需 在 solverprototxt 中 号 入 加 下 内 容 : 


base lr: 0.01 // 基准 学 习 速率 o=0.01， 另 外 每 个 Layez 会 在 基准 上 进行 细 调 

lr policy: "step" // 学 习 速 率 衰减 策略 ，step 为 步 进 方式 ， 即 每 进行 step WER, FREE X 
gamma: 0.1 // 学 习 速 率 衰减 常数 ， 每 次 更 新 学 习 速 率 都 是 乘 上 这 个 固定 常数 

stepsize: 100000 // 每 10 万 次 迭代 ， 对 学 习 速 率 进行 一 次 更 新 

max iter: 350000 // 训练 总 共 需 要 35 万 次 迭代 

momentum: 0.9 // 遗忘 因子 /=0.9 


注意 : 如 果 训 练 发 散 ( 损失 函数 值 变 得 非常 大 ， 甚 至 出 现 NaN 或 Inf)， 试 着 减 小 base lr, 
然后 重新 训练 ， 直 到 不 再 发 散 。 
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13.2.2 ”数据 结构 描述 


依然 先 打 开 caffe.proto， 查 看 与 Solver 相关 的 描述 信息 : 


message SolverParameter { 
// 指定 Net 结构 描述 文件 (*.prototxt) 
optional string net = A E 
// WE Net 参数 
optional NetParameter net param - 25; 
// 网 络 状态 ， 可 有 一 个 训练 网 络 和 多 个 测试 网 络 
optional NetState train state = 26; 


repeated NetState test state = 27; 


// 测试 阶段 迭代 次 数 


repeated int32 test iter = 3; 


/7 相 邻 两 个 测试 阶段 的 间隔 《〈 单 位 为 欠 代 次 数 ) 

optional int32 test interval = 4 [default = 0]; 

// 测试 时 是 否 需 要 计算 损失 函数 ， 默 认 不 需要 

optional bool test compute loss = 19 [default = false]; 
// 初始 测试 阶段 ， 默 认为 真 ， 表 示 在 第 一 次 迭代 之 前 首先 进行 一 次 测试 流程 ， 保 证 内 存 可 用 ， 打 印 初始 损失 函数 值 
optional bool test initialization = 32 [default = true]; 
optional float base lr = 5; // 学 习 速 率 ， 全 局 通用 

// 毎 次 打 印 信息 的 賠 隔 (単位 妨 肖 代 次 数 ) 

optional int32 display - 6; 

// 显示 最 近 一 个 从 代 周 期 的 损失 国 数 乎 均值 

optional int32 average loss = 33 [default = 1]; 

optional int32 max iter = 7; // RAKERA 

// 误差 梯度 在 多 少 个 批量 数据 上 累积 ， 默 认为 一 个 

optional int32 iter size = 36 [default = 1]; 


// 学 习 速 率 衰减 策略 ， 目 前 已 经 实现 的 有 : 


//  - fixed: 固定 学 习 速 率 ， 始 终 等 于 base lr 

// - step: WURI, 等 耳 base lr * gamma ^ (floor(iter / step)) 
Ay - exp: 指数 衰减 ， 等 于 base lr * gamma ^ iter 

// - inv: 倒数 衰减 , 等 于 base lr * (1 + gamma * iter) ^ (= power) 


//  - multistep: 多 步 衰减 ， 与 步 进 衰减 类 似 ， 人 允许 非 均匀 步 进 值 (stepva1ue ) 


// -poly: 多 项 式 衰减 , (Emax iter 时 达到 0。 计 算 公式 为 base lr (1- iter/max iter) ^ (power) 
// - sigmoid: sigmoid im, F base lr ( 1/(1 + exp(-gamma * (iter - stepsize)))) 
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// 上 面 出現 的 base 1r, max iter, gamma, step, stepvalue 和 power 都 在 solver. prototxt 中 
EM, iter 是 当前 迭代 次 数 
optional string lr policy = 8; 
optional float gamma - 9; 
optional float power - 10; 
optional float momentum = 11; // 遗忘 因子 
optional float weight decay = 12; // 权 值 衰减 常数 
// 规整 化 类 型 ，L1 L2 
optional string regularization type = 29 [default = "L2"]; 
optional int32 stepsize - 13; 
repeated int32 stepvalue - 34; 
// 设置 为 大 于 0 的 数 ， 可 以 保证 误差 梯度 的 范 数 不 超 过 这 个 边界 
optional float clip gradients = 35 [default - -1]; 
// 打 快 照 同 隔 , FETA UC 
optional int32 snapshot = 14 [default = 0]; 
// 快照 文件 前 缀 
optional stríng snapshot prefix = 15; 
// 打 快 照 时 是 否 包 含 梯度 信息 ， 默 认为 false， 不 包含 。 设 置 为 true， 有 利于 调试 ， 但 快照 文件 会 增 大 
optional bool snapshot diff = 16 [default = false]; 
// 快照 文件 格式 ， 支 持 HDF5 和 二 进 制 ProtoBuffer 两 种 格式 
enum SnapshotFormat { 
HDF5 - 0; 
BINARYPROTO - 1; 
} 
// 在 默认 情况 下 ， 快 照 文 件 为 二 进 制 ProtoBuffer 格式 
optional SnapshotFormat snapshot format = 37 [default = BINARYPROTO]; 
// 求解 器 模式 ， 有 CPU 和 ceu 两 种 


enum SolverMode | 


CPU = 0; 
GPU = 1; 
} 
// 默认 为 GPU 


optional SolverMode solver mode = 17 [default = GPU]; 

// 在 GPU 模式 下 需 指 定 设备 号 

optional int32 device id = 18 [default = 0]; 

// 随机 数 种 子 ， 若 为 非 负 数 ， 则 每 次 随机 数 发 生 器 会 以 确定 方式 产生 随机 数 ， 利 于 重 现 某 些 结果 ; 默认 使 用 系统 时 
钟 生成 随机 数 种 子 

optional int64 random seed = 20 [default = -1]; 


/7 求解 器 类 型 
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enum SolverType | 
SGD = 0; 
NESTEROV - 1; 
ADAGRAD = 2 
RMSPROP - 3; 
ADADELTA = 4; 
ADAM = 5; 

} 

// 默认 为 SSGD， 随 机 梯度 下 降 法 

optional SolverType solver type = 30 [default = SGD]; 

// {E RMSProp. AdaGrad. AdaDelta 和 Adam 求解 器 类 型 情况 下 保证 数值 稳定 性 的 参数 

optional float delta = 31 [default = 1e-8]; 

// AdamcKf a8 2 A 

optional float momentum2 = 39 [default = 0.999]; 

// RMS 求解 器 参数 

optional float rms decay = 38; 

// 是 否 打 印 调试 信息 ， 默 认 不 打印 

optional bool debug info = 23 [default - false]; 

// 训练 结束 时 是 否 打 快照 ， 默 认 会 打 


optional bool snapshot after train = 28 [default = true]; 


通过 这 些 描述 信息 ， 可 以 大 体 猜 出 其 实现 过 程 。 我 们 来 揭 开 谜底 。 
打开 include/caffe/solver.hpp, ftf Solver 类 声明 : 
// 求解 器 类 


template«typename Dtype> 
class Solver | 
public: 
// 两 种 显 式 构造 函数 ， 分 别 从 SolverParameter 対象 和 solver 描述 文件 创建 
explicit Solver(const SolverParameter& param, 
const Solver* root solver = NULL); 
explicit Solver(const string& param file, const Solver* root solver - NULL); 
// 初始 化 
void Init(const SolverParameter& param); 
void InitTrainNet(); // 初始 化 训练 Net 
void TnitmestNets () : // 初始 化 测试 Net 
// 主 入 口 ， 从 一 个 resume_file 中 恢复 训练 。 如 果 为 NOEL， 则 从 iter 0 开始 训练 


virtual void Solve(const char* resume file = NULL); 
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inline void Solve(const string resume file) { Solve(resume file.c str()); } 

// 进行 第 iter 次 迭代 

void Step(int iters); 

// 人 人 resume file 中 恢复 训练 

void Restore(const char* resume file); 

// 虚 析 构 函 数 

virtual -Solver() {} 

// Getters/Setters 

inline const SolverParameter& param() const | return param ; } 

inline shared ptr«Net«Dtype»» net() { return net ; } 

inline const vector«shared ptr<Net<Dtype>>>& test nets() | 
return test nets ; 

} 


int iter() { return iter ; } 


protected: 
// 对 当前 迭代 产生 并 应 用 更 新 值 ， 纯 虚 函 数 ， 需 要 到 派生 类 中 去 查找 
virtual void ApplyUpdate() = 0; 


// 实现 基本 打 快 照 工 具 ， 存 储 学 习 到 的 网 络 。 应 兰 
ProtoBuffer， 并 和 学 习 到 的 网 络 一 起 写 入 磁盘 


void Snapshot(); 








实现 SnapshotSolverState() MM, “EM SolverState 


string SnapshotFilename(const string extension); 


string SnapshotToBinaryProto () ; // 保存 为 二 进 制 ProtoBuffer 文件 

string SnapshotToHDF5(); // 保存 为 HDF5 文件 

virtual void SnapshotSolverState(const string& model filename) - 0; 

virtual void RestoreSolverStateFromHDF5 (const string& state file) = 0; 
virtual void RestoreSolverStateFromBinaryProto(const string& state file) - 0; 


// 对 网 络 做 测试 
void TestAll(); 


void Test(const int test net id - 0); 
void DisplayOutputBlobs (const int net id); 


SolverParameter param ; // 用 于 从 prototxt 中 获取 参数 

int iter ; // ARD UC 

int current step ; // 当前 step 大 小 ， 用 于 学 习 速 率 步 进 误 减 策略 

shared ptr«Net«Dtype»» net ; // dtl Net 对象 的 指针 ， 用 于 训练 
vector«shared ptr<Net<Dtype>>> test nets ;// frd Net 对 象 的 指针 ， 用 于 测试 
vector<Callback*> callbacks ; // 回调 函数 列表 
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// 根 求解 器 ， 用 于 多 机 并 行 训练 


const Solver* const root solver ; 


DISABLE COPY AND ASSIGN(Solver); 
VF 


mi 


// 用 sep 方法 的 求解 器 类 ， 派 生 了 
template<typename Dtype» 





Solver 


class SGDSolver : public Solver<Dtype> { 
public: 
// 显 式 构造 函数 ， 注 意 在 构造 时 调用 了 自身 的 EreSo1ve O 函数 


explicit SGDSolver(const SolverParameter& param) 




















Solver«Dtype» (param) ( PreSolve(); } 


explicit SGDSolver(const string& param file) 








Solver«Dtype» (param file) { PreSolve(); } 
// 获得 权 值 更 新 历史 值 
const vector«shared ptr<Blob<Dtype>>>& history() | return history ; } 
protected: 





// 求解 前 的 准备 工作 

void PreSolve(); 

// 得 到 学 习 速 率 

Dtype GetLearningRate(); 

// 应 用 更 新 

virtual void ApplyUpdate(); 

// 对 某 权 值 进行 归 一 化 

virtual void Normalize(int param id); 
// 对 某 权 值 进行 规整 化 

virtual void Regularize(int param id); 
// 计算 某 权 值 在 特定 学 习 速 率 下 的 更 新 值 
virtual void ComputeUpdateValue(int param id, Dtype rate); 
// 梯度 抑制 

virtual void ClipGradients(); 

// +9 Solver 中 的 对 应 函数 功能 一 致 


virtual void SnapshotSolverState(const string& model filename); 


























virtual void SnapshotSolverStateToBinaryProto(const string& model filename); 


virtual void SnapshotSolverStateToHDF5 (const string& model filename); 





virtual void RestoreSolverStateFromHDF5(const string& state file); 
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virtual void RestoreSolverStateFromBinaryProto(const string& state file); 
// 以 下 为 SGD 来 解 时 需要 的 临时 存储 。nistory_ 中 保留 历史 增 量 数据 ; update 中 保留 更 新 相关 数据 ， 不 需要 
打 快 照 ，temp_ 保 留 在 计算 梯度 /更 新 值 时 可 能 需要 的 其 他 信息 ， 不 需要 打 快 照 


vector<shared_ptr<Blob<Dtype>>> history , update , temp ; 








DISABLE COPY AND ASSIGN(SGDSolver); 
s 


我 们 重点 研究 SGDSolver 类 的 实现 ， 其 他 求解 器 类 如 RMSPropSolver、AdaDeltaSolver、 
AdamSolver、NesterovSolver、AdaGradSolver 等 ， 请 读者 结合 相关 论文 做 选择 性 阅读 。 


首先 看 Solver 类 的 构造 函数 : 


template<typename Dtype> 
Solver<Dtype>::Solver (const SolverParameter& param, const Solver* root solver) 
: net (), callbacks (), root solver (root solver) { 


Init (param); 


template«typename Dtype> 
Solver«Dtype»::Solver(const string& param file, const Solver* root solver) 
: net (), callbacks (), root solver (root solver) { 
SolverParameter param; 
ReadProtoFromTextFileOrDie(param file, &param); 


Init (param); 

















调用 了 Init) Zt, 閣 SolverParameter 作为 参数 传递 。 进 一 步 看 Init0 函 数 如 下 : 


template«typename Dtype» 
void Solver«Dtype»::Init(const SolverParameter& param) { 
param = param; // 将 外 部 SolverParameter 对 象 找 贝 到 内 部 
Caffe::set random seed(param .random seed()); // 设置 随机 数 种 子 
// 初始 化 训练 网 络 
InitTrainNet (); 
// 初始 化 预测 网 络 
InitTestNets(); 
LOG(INFO) «« "Solver scaffolding done."; 
// 途 代 次 数 清 宰 


iter = Og 
// EVER ES MINS 
current step = 0; 
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Init0 中 调用 了 两 个 Net 初始 化 函数 ， 继 续 追 踪 : 


// 初始 化 训练 网 络 
template«typename Dtype» 
void Solver<Dtype>::InitTrainNet() | 
// 创建 NetParameter 対象 
NetParameter net param; 
// 从 Solver 中 获取 NetParameter 信息 
if (param .has train net param()) { 
LOG IF(INFO, Caffe::root solver()) 
«« "Creating training net specified in train net param."; 
net param.CopyFrom(param .train net param()); 
} else if (param .has train net()) { 
LOG IF(INFO, Caffe::root solver()) 
<< "Creating training net from train net file: "<< param .train net(); 
ReadNetParamsFromTextFileOrDie(param .train net(), &net param); 
} 
if (param .has net param()) { 
LOG IF(INFO, Caffe::root solver()) 
<< "Creating training net specified in net param."; 
net param.CopyFrom(param .net param()); 
} 
if (param .has net()) { 
LOG IF(INFO, Caffe::root solver()) 
«« "Creating training net from net file: "«« param .net(); 
ReadNetParamsFromTextFileOrDie(param .net(), &net param); 
} 
// 设置 当前 训练 网 络 状态 
NetState net state; 
net state.set phase (TRAIN); 
net state.MergeFrom(net param.state()); 
net state.MergeFrom(param .train state()); 
net param.mutable state()-»CopyFrom(net state); 
if (Caffe::root solver()) | 
// 创建 训练 网 络 
net_.reset (new Net<Dtype>(net_param) ); 
} else { 


net .reset(new Net«Dtype»(net param, root solver -»net .get())); 
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// 初始 化 预测 网 络 
template<typename Dtype> 
void Solver<Dtype>::InitTestNets() ( 
// 确定 当前 Solver HMPA > STU IAs, Hs 
int test_net_id = 0; 
vector<string> sources(num test net instances); 


vector<NetParameter> net params(num test net instances); 


// 为 每 个 预测 网 络 设置 参数 ， 参 数 来 源 可 能 是 solver.prototxt 中 的 test net param 条 目 或 
solver.prototxt 中 指定 的 test_net 文件 


for (int i = 0; i < num test net params; ++i, ++tes net id) { 
sources[test net id] = "test'net param"; 
net params[test net id].CopyFrom(param .test net param(i)); 
} 
for (int i = 0; i < num test net files; ++i, ++test_net_id) | 
sources[test net id] = "test net file: ”十 param .test net(i); 
ReadNetParamsFromTextFileOrDie(param .test net(i), 
&net params[test net id]); 
} 
// 剩 下 的 预测 网 络 参数 也 做 初始 化 
const int remaining test nets = param .test iter size() - test net id; 
if (has net param) { 
for (int i = 0; i < remaining test nets; ++i, ++test net id) { 
sources[test net id] = "net param"; 


net params[test net id].CopyFrom(param .net param()); 


} 

if (has net file) | 

for (int i = 0; i « remaining test nets; ++i, ++test_net_id) { 
sources[test net id] = "net file: " + param .net(); 


ReadNetParamsFromTextFileOrDie(param .net(), &net params[test net id]); 


) 

// 初始 化 内 置 变量 test nets_ 

test nets .resize(num test net instances); 

for (int i = 0; i < num test net instances; ++i) { 
// 设置 每 个 预测 网 络 状态 
NetState net state; 
net state.set phase(TEST); 


net state.MergeFrom(net params[i].state()); 


ww ai bbt. com [1 EH B D D. UU 


218 RES: 21 天 实战 Caffe 


if (param .test state size()) { 

net state.MergeFrom(param .test state(i)); 
} 
net params[i].mutable state()-»CopyFrom(net state); 
LOG (INFO) 

<< "Creating test net (#" << i << ") specified by " << sources[i]; 
if (Caffe::root solver()) { 

// 创建 每 个 预测 网 络 

test nets [i].reset(new Net«Dtype»(net params[i])); 
} else { 

test nets [i].reset(new Net<Dtype>(net_params[i], 

root solver =>test nets [i].get())); 

} 
// 设置 调试 信息 


test nets [i]->set debug info(param .debug info()); 


从 这 里 清晰 地 看 到 ，Solver 包含 一 个 训练 网 络 net 对 象 和 若干 个 预测 网 络 test nets 対象 , 
由 Solver 统一 管理 它们 的 运行 。 结 合 前 两 天 内 容 ， 我 们 可 以 想起 在 创建 Net 对 象 期 间 会 调用 一 
系列 Layer SetUp() 函 数 ， 脑 海中 闪现 出 一 群 忙 忙 碌碌 的 喘 影 。 


13.2.3 CNN 训练 过 程 


我 们 前 面 熟悉 了 Net Forward/Backward 计算 过 程 ， 这 还 不 够 ， 需 要 进一步 研究 其 触发 时 机 ， 
这 样 才 能 了 解 CNN 整体 运作 原理 。 为 此 ， 我 们 深入 阅读 Solver 源码 的 Solve() 部 分 。 
// 求解 器 的 核心 函数 


template<typename Dtype> 

void Solver<Dtype>::Solve(const char* resume file) | 
CHECK(Caffe::root solver()); 
LOG(INFO) «« "Solving " «« net -»name(); 


LOG(INFO) << "Learning Rate Policy: " << param .lr policy(); 


if (resume file) | 
// 如 果 指定 了 快照 恢复 文件 ， 则 从 快照 恢复 训练 环境 
LOG(INFO) << "Restoring previous solver status from " «« resume file; 


Restore(resume file); 
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int start iter = iter ; 


Step(param .max iter() - iter ); // 关键 国 数 


// 求解 后 打 一 次 快照 。 可 以 在 solver.prototxt 中 显 式 说 明 snapshot after train 


这 个 功能 
if (param .snapshot after train() 
&& (!param .snapshot() || iter % param .snapshot() != 0)) | 
Snapshot () ; 
) 
// 全 部 求解 完成 后 ， 再 进行 一 次 额外 的 训练 和 预测 ， 显 示 其 损失 昂 数 
if (param .display() && iter き param .display() == 0) { 
Dtype loss; 


net -»ForwardPrefilled(&loss); 


LOG (INFO) << "Iteration " << iter << ", loss = " << loss; 
) 
if (param .test interval() && iter  $ param .test interval() == 0) 
TestAll(); 


} 
LOG(INFO) << "Optimization Done."; 


继续 深入 Step() 这 个 函数 : 
// 求解 器 迭代 过 程 


template<typename Dtype» 

void Solver«Dtype»::Step(int iters) | 
// 入 口 参数 iters 表示 需要 循环 这 么 多 次 
const int start iter - iter ; 
const int stop iter = iter + iters; 
int average loss = this-»param .average loss(); 
losses .clear(); 
smoothed loss = 0; 
// 循环 开始 
while (iter < stop iter) | 

/7/ 清 零 训 练 网 络 的 所 有 权 值 diff 


net -»ClearParamDiffs(); 


if (param .test interval() && iter % param .test interval() == 0 


&& (iter > 0 || param .test initialization()) 


&& Caffe::root solver()) { 
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// 周期 性 预测 ， 评 佑 网 络 质量 
TestAll(); 
if (requested early exit ) { 
// Break out of the while loop because stop was requested while testing. 


break; 


const bool display = param .display() && iter è param .display() == 0; 
net -»set debug info(display.&& param .debug info()); 
// 损失 函数 、 误 差 值 累加 
Dtype loss = 0; 
for (int i = 0; i < param .iter size(); ++i) 1 
loss += net -»ForwardBackward(); 
} 
// 取 平 均 


loss /- param .iter size(); 


// 平滑 滤波 
UpdateSmoothedLoss(loss, start iter, average loss); 
if (display) { 
// 打印 当前 《平滑 后 的 ) 损失 函数 值 
LOG IF(INFO, Caffe::root solver()) << "Iteration " << iter 
<< ", loss = " << smoothed loss ; 
// 获取 训练 网 络 输 出 BLob， 格 式 化 之 后 打印 输出 
const vector<Blob<Dtype>*>& result = net -»output blobs(); 
int score index - 0; 
for (int j = 0; j < result.size(); ++j) { 
const Dtype* result vec = result[j]-»cpu data(y; 
const string& output name - 
net -»blob names()[net -»output blob indices()[j]]; 
const Dtype loss weight = 
net -»blob loss weights()[net -»output blob indices() [jl]; 
for (int k = 0; k < result[j]->count(); ++k) { 
ostringstream loss msg stream; 
if (1oss weight) { 
loss msg stream «« " (* " «« loss weight 


<< "= " << loss weight * result vec[k] <<" loss)"; 
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LOG IF(INFO, Caffe::root solver()) «« " Train net output 4" 
««score index << ": " << output name << "=" 


<< result vec[k] << loss msg stream.str(); 


] 

// 应 用 更 新 

ApplyUpdate(); 

// 在 Solver 类 中 这 是 个 纯 虚 函数 ， 实 现 要 到 派生 类 如 sGDsolver 中 查看 


// 过 代 次 数 递 增 
titer z 
// 如 果 需 要 ， 打 个 快照 
if ((param .snapshot() 


9. 


&& iter % param .snapshot() == 0 

&& Caffe::root solver()) || 

(request == SolverAction::SNAPSHOT)) { 
Snapshot () ; 


} 





由 于 Step0 函 数 调用 了 纯 虚 函数 ApplyUpdate()， 我 们 需要 将 注意 力 转向 SGDSolver 中 的 对 
应 函数 查看 实现 过 程 。 
// 应 用 更 新 


template«typename Dtype» 
void SGDSolver«Dtype»::ApplyUpdate() { 
// 首先 ， 获 取 学 习 速 率 ， 必 要 时 打印 
Dtype rate = GetLearningRate(); 
if (this-»param .display() && this-»iter  $ this->param_.display() == 0) { 
LOG (INFO) << "Iteration " << this-»iter << ", lr =" << rate; 
A 
// 钳制 误差 梯度 
ClipGradients(); 
// 对 训练 网 络 中 每 个 权 值 Blob， 都 做 归 一 化 、 正 则 化 、 计 算 增 量 这 三 步 


for (int param id = 0; param id < this-»net -»learnable params().size(); 





++param id) { 
Normalize (param id); 


Regularize(param id); 
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ComputeUpdateValue(param id, rate); 
} 
// 调用 训练 网 络 的 Update () 函数 ， 实 现 见 第 12 天 内 容 。 
this->net -»Update(); 








// 返回 当前 学 习 速 率 ， 依 据 所 选 的 学 习 策 略 和 当前 迭代 进度 进行 计算 
template<typename Dtype> 








Dtype SGDSolver«Dtype»::GetLearningRate() | 
Dtype rate; 


const strings lr policy = this-»param .lr policy(); 


it (lr polaey = "£ixed"» 4 
rate = this-»param .base lr(); 
) else if (lr poliey == "step") { 
this-»current step = this-»iter / this-»param .stepsize(); 


rate = this->param_.base lr() * 


pow(this-»param .gamma(), this-»current step ); 


} else if (lr policy == "exp") { 

rate = this-»param .base lr() * pow(this-»param .gamma(), this-»iter ); 
} else if (lr policy == "inv") { 

rate = this-»param .base lr() * 


pow(Dtype(1) + this-»param .gamma() * this-»iter , 
- this->param_.power()); 
} else if (lr policy == "multistep") { 
if (this-»current step < this-»param .stepvalue size() && 
this->iter >= this-»param .stepvalue(this-»current step )) { 
this-»current step ++; 
LOG(INFO) «« "MultiStep Status: Iteration " «« 
this-»iter << ", step = " << this->current step ; 
} 
rate = this-»param .base lr() * 


pow(this-»param .gamma(), this-»current step ); 


else if (lr policy == "poly") { 

rate = this-»param .base lr() * pow(Dtype(l.) = 
(Dtype(this-»iter ) / Dtype(this-»param .max iter())), 
this-»param .power()); 

} else if (lr policy == "sigmoid") { 

rate = this-»param .base 1r() * (Dtype(l.) / 


(Dtype(1.) + exp(-this-»param .gamma() * (Dtype(this-»iter ) = 
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Dtype(this-»param .stepsize()))))); 
) else { 
LOG (FATAL) << "Unknown learning rate policy: " << lr policy; 
} 
return rate; 
} 
// 预 求解 ， 在 SGDSolver 构造 函数 中 调用 
template<typename Dtype> 
void SGDSolver<Dtype>::PreSolve() { 
// 初始 化 临时 变量 ， 尺 寸 与 训练 网 络 的 权 值 完全 一 至 
const vector<Blob<Dtype>*>& net params = this-»net -»learnable params(); 
history .clear(); 
update .clear(); 
temp .clear(): 
for (int i = 0; i < net params.size(); ++i) { 
const Vector<int>& shape = net params[i]-»shape(); 
history .push back(shared ptr«Blob«Dtype»» (new Blob<Dtype> (shape))); 
update .push back(shared ptr«Blob«Dtype»» (new Blob<Dtype>(shape) )); 
temp .push back(shared ptr«Blob«Dtype»» (new Blob«Dtype» (shape))); 


// Wy iter 维度 归 一 化 ， 即 diff 全 都 除 以 iter size 
template«typename Dtype» 
void SGDSolver<Dtype>::Normalize(int param id) { 
if (this-»param .iter size() == 1) { return; } 
const vector<Blob<Dtype>*>& net params = this-»net -»learnable params(); 
const Dtype accum normalization = DEype(1.) / this-»param .iter size(); 
switch (Caffe::mode()) { 
case Caffe::CPU: { 
caffe scal(net params[param id]-2count(), accum normalization, 
net params[param id]-»mutable cpu diff()); 
break; 
} 
case Caffe::GPU: ( 
break; 
) 
default: 
LOG(FATAL) «« "Unknown caffe mode: " «« Caffe::mode(); 
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} 
// 正则 化 
template<typename Dtype> 
void SGDSolver«Dtype»::Regularize(int param id) | 
const vector<Blob<Dtype>*>& net params = this->net_->learnable params(); 
const vector«float»& net params weight decay = 
this-»net -»params weight decay(); 
// 拿 到 solver.prototxt 中 的 weight decay 
Dtype weight decay = this-»param .weight decay(); 
// #8) solver.prototxt 中 的 regularization type 
string regularization type = this-»param .regularization type(); 
// 获得 每 个 层 自己 本 地 的 weight decay = solver weight decay * 本 地 缩放 因子 
Dtype local decay = weight decay * net params weight decay[param id]; 
switch (Caffe::mode()) ( 





case Caffe::CPU: { 
if (local decay) 1 
if (regularization type == "L2") { 
// 12 正则 化 ,引入 decay * w 项 
caffe axpy(net params[param id]-»count(), 
local decay, 
net params[param id]-»cpu data(), 
net params[param id]-»mutable cpu diff()); 
] else if (regularization type == "L1") { 
// Ll 正则 化 ， 引 入 decay * sign (W)Jji 
caffe cpu sign(net params[param id]-»count(), 
net params[param id]-»cpu data(), 
temp [param id]-»mutable cpu data()); // 符号 函数 
caffe axpy(net params[param id]-»count(), M 
local decay, 
temp [param id]-»cpu data(), 
net params[param id]-»mutable cpu diff()); 
) else { 


LOG(FATAL) << "Unknown regularization type: " << regularization type: 


} 
break; 


} 
case Caffe::GPU: | 


ww ai bbt. com [1 EH B D. D] UU 


第 13 天 Caffe 最 优化 求解 过 程 225 


break; 
} 
default: 
LOG (FATAL) << "Unknown caffe mode: " << Caffe: :mode() : 


} 
// 计算 权 值 增 量 
template«typename Dtype» 
void SGDSolver«Dtype»::ComputeUpdateValue(int param id, Dtype rate) { 
const vector<Blob<Dtype>*>& net params = this-»net -»learnable params(); 
const vector«float»& net params lr = this-»net -params lr(); 
Dtype momentum = this->param_.momentum(); 
// 获得 当前 层 的 学 习 速 率 ， 数 值 上 等 于 全 局 学 习 速 率 乘 以 本 地 缩放 因子 
Dtype local rate = rate * net params lr[param id]; 
// 计算 增 量 存放 到 history ,之 后 拷贝 到 权 值 的 diff 域 
switch (Caffe::mode()) ! 





case Caffe::CPU: 
// 学 习 速 率 乘 以 增 量 + 遗忘 因子 乘 以 旧 的 增 量 = 新 的 増量 


caffe cpu axpby(net params[param id]-»count(), local rate, 





net params[param id]-»cpu diff(), momentum, 
history [param id]-»mutable cpu data()); 
caffe copy(net params[param id]-»count(), 
history [param id]-»cpu data(), 
net params[param id]-»mutable cpu diff()); 
break; 
) 
case Caffe::GPU: { 
break; 
} 
default: 
LOG(FATAL) << "Unknown caffe mode: " << Caffe::mode(); 


13.2.4 CNN 预测 过 程 


Solver 每 隔 一 定 周 期 会 对 训练 的 网 络 做 一 次 评估 , 使 用 test nets 切换 到 新 数据 集 进 行 预测 。 
预测 时 调用 TestA lO ER Zi: 
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template<typename Dtype> 
void Solver«Dtype»::TestAll() { 
// 遍历 test nets 中 的 每 个 对 象 
for (int test net id = 0; test net id < test nets .size(); **test net id) 


Test(test net id); 


] 
// 对 单个 Net 进行 评估 
template«typename Dtype> 
void Solver«Dtype»::Test(const int test net id) { 
CHECK(Caffe::root solver()); 
LOG(INFO) << "Iteration " << iter 
<< ", Testing net (#" << test net id << ")'"; 
CHECK NOTNULL(test nets [test net id].get())-» 
ShareTrainedLayersWith(net .get()); 
vector«Dtype» test score; 
vector«int» test score output id; 
vector«Blob«Dtype»*» bottom vec; 
// 获得 单个 test net WH 
const shared ptr<Net<Dtype>>& test net = test nets [test net id]; 
Dtype loss = 0; | 
// W&IÍGXORE solver.prototxt 中 由 test iter 設定 
for (int i = 0; i < param -test iter(test net id); ++i) I 
Dtype iter loss; 
// 预测 网 络 执行 前 向 传播 计算 
const vector«Blob«Dtype»*5& result = 
test net-»Forward(bottom vec, &iter loss); 
if (param .test compute loss()) 1 
/7 记录 loss fü 
loss += iter loss; 
} 
if (i == 0) ( 
for (int j = 0; j < result.size(); **j) { 
const Dtype* result vec = result[j]-»cpu data(); 
for (int k = 0; k < result[j]-»count(); ++k) 1 
test score,push back(result vec[k]): 


test score output id.push back(j); 
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) else | 
int idx = 0; 
for (int j = 0; j < result.size(); *-j) { 
const Dtype* result vec = result[j]-»cpu data(); 
for (int k = 0; k < result[j]-»count(); ++k) { 


test_score[idx++] += result vec[k]; 


} 
// 打印 损失 函数 值 
if (param .test compute loss()) { 

loss /= param .test iter(test net id); 

LOG(INFO) «« "Test loss: " «« loss; 
} 
// 打印 准确 率 、 损 失 函 数 
for (int 1 = 0; i € test seora. gize); 41) 1 

const int output blob index = 

test net-»output blob indices()[test score output id[i]]; 


const string& output name = test net-»blob names()[output blob index]; 


const Dtype loss weight = test net-»blob loss weights()[output blob index]; 


ostringstream loss msg stream; 
const Dtype mean score - test score[i] / param .test iter(test net id); 


if (loss weight) | 


loss msg stream << " (* " << loss weight 
<< "= " << loss weight * mean score <<" loss)"; 
} 
LOG(INFO) << " Test net output 4$" << i << "; " << output name << "=" 


<< mean score << loss msg stream.str(); 


13.2.5 Solver 的 快照 和 恢复 功能 


求解 器 会 在 Solver::Snapshot() 和 Solver::SnapshotSolverState0 中 将 权 值 和 它 训练 时 的 状 
快照 。 权 值 快照 将 学 习 到 的 模型 导出 ， 而 求解 器 快照 允许 从 特定 快照 点 恢复 训练 。 使 用 
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Solver::Restore() 和 Solver::RestoreSolverState() 恢 复 训 练 。 权 值 保 存 到 *.caffemodel 文件 中 , 求 解 
器 状态 保存 到 *.solverstate 文件 中 。 每 个 文件 都 有 _iter_N 后 缀 ， 用 于 标记 打 快 照 时 的 训练 达 代 
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首先 我 们 看 一 下 在 caffe.proto 中 对 求解 器 快照 数据 结构 的 描述 
// 求解 器 打 快照 时 会 用 到 


message SolverState { 














optional int32 iter = 1; // 当 前 途 代 次 数 

optional string learned net = 2; // 保存 权 值 的 文件 (*.caffemodel) 
repeated BlobProto history = 3; // SGD 求 解 器 的 历史 数据 

optional int32 current step = 4 [default = 0]; // 当前 学 习 速 率 的 step fl 


在 求解 器 描述 prototxt 文件 中 ， 可 以 对 快照 功能 做 如 下 配置 : 


snapshot: 5000 // 快照 间隔 ， 每 5000 次 送 代 打 一 次 快 照 

. snapshot prefix: "/path/to/model" // 快照 文件 前 级 ， 对 caffemodel 和 solverstate 文件 均 
有 效 。 注 意 该 路 径 是 相对 于 ./build/toocls/eaEffe， 而 不 是 solver.prototxt 

snapshot diff: false // 打 快 照 时 是 否 包 括 diff， 有 利于 调试 。 但 会 增加 文件 大 小 
snapshot after train: true// 在 训练 结束 时 ， 是 否 追 加 一 个 快照 


我 们 具体 看 一 下 代码 实现 ; 


// Solver 的 快照 功能 

template«typename Dtype» 

void Solver«Dtype»::Snapshot() | 
CHECK(Caffe::root solver()); 
string model filename; 


// 权 值 快照 支持 两 种 格式 ; HDF5 和 二 进 制 protoBuffer, 根 据 solver.prototxt 中 的 snapshot format 
设置 而 定 


switch (param .snapshot format()) | 
case caffe::SolverParameter SnapshotFormat BINARYPROTO: 
model filename = SnapshotToBinaryProto(); 
break; 
case caffe::SolverParameter SnapshotFormat HDF5: 
model filename = SnapshotToHDF5 (); 
break; 
default: 
LOG(FATAL) << "Unsupported snapshot format."; 
} 
// 求解 器 打 快 照 


SnapshotSolverState (model filename); 
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// 获得 快照 全 名 
template<typename Dtype> 


string Solver<Dtype>::SnapshotFilename(const string extension) { 





// 前 级 由 solver.prototxt 中 的 snapshot prefix 指定 
string filename(param_.snapshot_prefix()); 
const int kBufferSize = 20; 
char iter str buffer[kBufferSize]; 
snprintf(iter str buffer, kBufferSize, " iter $d", iter ); 
// 名 称 加 入 迭代 次 数 ， 方 便 区 分 
// HAH “.solverstate” I “.caffemodel” 
return filename + iter str buffer + extension; 

} 

// 为 权 值 打 快 照 ， 格 式 为 二 进 制 ProtoBuffer 

template«typename Dtype> 

string Solver«Dtype»::SnapshotToBinaryProto() { 
string model filename = SnapshotFilename (".caffemodel"); 
LOG(INFO) «« "Snapshotting to binary proto file " «« model filename; 
// 生成 快照 名 
NetParameter net param; 
// 将 训练 网 络 从 内 存 导 出 到 ProtoBuffer 対象 
net -»ToProto(&net param, param .snapshot diff()); 
// 再 从 ProtoBuffer 对 象 写 入 磁 竹 文件 
WriteProtoToBinaryFile(net param, model filename); 
return model filename; 

} 

// 为 权 值 打 快照 ， 格 式 为 HDF5 

template<typename Dtype> 

string Solver<Dtype>::SnapshotToHDF5() { 
// 生成 快照 名 
string model filename = SnapshotFilename(".caffemodel.h5"); 
LOG(INFO) «« "Snapshotting to HDF5 file " «« model filename; 
// 直接 调用 Nec 自 带 的 ToHDF5() MAX, BA HDF5 文件 
net ->ToHDF5 (model filename, param .snapshot diff()); 
return model filename; 

! 

// 从 快照 恢复 功能 

template<typename Dtype> 

void Solver<Dtype>::Restore(const char* state file) { 


CHECK(Caffe::root solver()); 
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string state filename(state file); 
// 根据 有 无 .h5 后 绷 来 判断 快照 格式 ， 从 而 选择 相应 的 恢复 方法 
if (state filename.size() >= 3 && 
state filename.compare(state filename.size() - 3, 3, ".h5") == 0) | 

RestoreSolverStateFromHDF5(state filename); 
} else i 

RestoreSolverStateFromBinaryProto(state filename); 
} 


通过 这 三 天 介绍 的 内 容 ， 我 们 学 到 了 深度 学 习 最 核心 的 儿 项 技术 : 多 表示 层 、 激 活 函数 、 
损失 函数 、 反 向 传播 、 最 大 梯度 下 降 法 优化 求解 ， 这 些 技术 充满 了 挑战 和 机 遇 ， 需 要 较 深 的 理 
论 功底 和 一 定 的 编程 技巧 ， 值 得 读者 细 细 揣摩 。 通 过 对 深度 学 习 最 新 理论 的 不 断 学 习 和 编程 实 
践 ， 将 会 让 你 成 长 为 优秀 的 算法 工程 师 。 





13.3 Sm 


1. 尝试 使 用 不 同 的 学 习 策略 运行 MNIST、CIFAR10 训练 例 程 ， 观 察 损失 函数 和 准确 率 变 
化 情况 。 





2. 尝试 使 用 不 同 的 求解 器 训练 网 络 。 
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Caffe 框架 编译 之 后 会 生成 动态 链接 库 libcaffe.so， 其 本 身 并 不 能 独立 运行 。 如 果 需 要 运行 
Caffe， 则 需要 写 一 个 maine, 週 用 Caffe 的 API， 编 译 时 包含 相应 的 头 文件 ， 链 接 时 加 入 
libcaffe.so, 这 样 才能 构成 一 个 完整 的 Caffe 应 用 程序 。 在 tools/ 目 录 下 的 就 是 一 些 调用 libcaffe.so 
的 实用 工具 源码 。 我 们 在 第 2 天 跑 Caffe 例 程 时 使 用 的 build/tools/caffe.bin， 也 是 其 中 一 个 实用 
工具 。 

前 面 用 应 丁 解 牛 的 方法 研究 了 Caffe 各 个 组 成 部 分 的 运行 机 理 ， 而 今天 内 容 则 关注 功能 性 ， 
即 如 何 利用 Caffe 强大 的 模块 构建 符合 应 用 需求 的 完整 工程 。 


14.1 训练 和 预测 


通过 Caffe 例 程 我 们 已 经 了 解 到 ， 只 需 通 过 命令 行 向 caffe.bin 传递 不 同 参 数 〈train/test) 就 
可 以 实现 深度 神经 网 络 的 训练 、 预 测 。 下 面 研究 其 源码 tools/caffe.cpp 的 具体 实现 。 
*ifdef WITH PYTHON LAYER 
#include "boost/python.hpp" 
namespace bp - boost::python; 


#endiF 
#include <glog/logging.h> // 包含 这 个 文件 ， 就 可 以 使 用 GLOG 


#include <cstring> 
#include <map> 

#include <string> 
#include <vector> 
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#include "boost/algorithm/string.hpp"  // 字符 串 处 理 库 


#include "caffe/caffe.hpp"// 只 需 包含 这 个 头 文件 ， 即 可 使 用 caffe 的 所 有 组 件 (Blob, Layer, 
Solver, =) 


using caffe: :Blob; 

using caffe: :Caffe; 
using caffe: :Net; 

using caffe: :Layer; 
using caffe::Solver; 
using caffe::shared_ptr; 
using caffe::string; 
using caffe::Timer; 
using caffe::vector; 


. using std::ostringstream; // 借 此 机 会 学 习 C++ 命名 空间 用 法 


DEFINE string(gpu, "", 
"Optional; run in GPU mode on given device IDs separated by ','." 
"Use '-gpu all' to run on all available GPUs. The effective training " 
"batch size is multiplied by the number of devices."); 
DEFINE string(solver, "", 
"The solver definition protocol buffer text file."); 
DEFINE string(model, "", 
"The model definition protocol buffer text file.."); 
DEFINE string(snapshot, "", 
"Optional; the snapshot solver state to resume training."); 
DEFINE string(weights, "", 
"Optional; the pretrained weights to initialize finetuning, " 
"separated by ','. Cannot be set simultaneously with. snapshot."); 
DEFINE int32(iterations, 50, 


"The number of iterations to run."); 


// 简单 的 caffe 命令 注册 表 
typedef int (*BrewFunction) (); 
typedef std::map<caffe::string, BrewFunction> BrewMap; 


BrewMap g_brew_map; 


#define RegisterBrewFunction(func) \ 
namespace { \ 


class _ Registerer_##func | \ 
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public: /* NOLINT */ \ 


. Registerer ##func() { \ 
g brew map[#func] = &func; \ 
} \ 
he N 


__Registerer_##func g registerer ##func; \ 


} 


{ 


static BrewFunction GetBrewFunction(const caffe::string& name) 
if (g brew map.count(name)) { 
return g brew map[name]; 
) else { 
LOG(ERROR) «« "Available caffe actions:"; 
for (BrewMap::iterator it = g brew map.begin(); 
it != g brew map.end(); ++it) { 
LOG(ERROR) << "Nt" << it->first; 
} 


LOG(FATAL) << "Unknown action: " << name; 


return NULL; // 该 语句 不 可 达 ， 只 是 为 了 减少 旧 编译 器 警告 





// 解析 GPU id， 或 使 用 所 有 可 用 的 GPU 设备 
static void get gpus(vectorcint»* gpus) 1 
if (FLAGS gpu == "all") ( 
int count = 0; 
#ifndef CPU ONLY 
CUDA CHECK (cudaGetDeviceCount (&count)); 
#e] se 
NO GPU; 
#endif 
for (int i = 0; i < count; ++i) A 
gpus-»push back(i); 
} 
) else if (FLAGS gpu.size()) { 
vector«string» strings; 
boost::split(strings, FLAGS gpu, boost::is any of(",")); 
for (inti = 0; i < strings.size(); ++i) { 


gpus-»push back(boost::lexical cast<int>(strings[i])); 
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} 
} else | 
CHECK EQ(gpus-»size(), 0); 


// caffe 命令 ， 格 式 为 : 

// caffe <command><args> 

// 

// 如 果 需 要 增加 一 个 命令 ， 定 义 一 个 函数 int command()， 然 后 这 样 注册 : 


// RegisterBrewFunction (action) ; 


// 设备 查询 命令 ， 显 示 GPU 设备 诊断 信息 
int device query() | 
LOG(INFO) «« "Querying GPUs " «« FLAGS gpu; 
vector<int> gpus; 
get gpus(&gpus); 
for (int i = 0; i < gpus.size(); ++i) { 
caffe::Caffe::SetDevice (gpus[il); 
caffe::Caffe::DeviceQuery(); 
} 
return 0; 


} 


ReqisterBrewFunction (device query); 


// 从 指定 的 caEEemode1 中 向 训练 、 预 测 网 络 载 入 训练 过 的 权 值 
void CopyLayers (caffe::Solver<float>* solver, const std::string& model list) | 
std::vector«std::string» model names; i 
boost::split(model names, model list, boost::is any of(",") ); 
for (int i = 0; i < model names.size(); ++i) { 
LOG(INFO) << "Finetuning from " << model names[i]; 
solver-»net()-»CopyTrainedLayersFrom(model names[i]l); 
for (int j = 0; j < solver->test_nets().size(); **3) { 


solver-»test nets()[jl-»CopyTrainedLayersFrom(model names[i]); 
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// 训练 / 精 调 一 个 模型 
int train() ( 
CHECK GT(FLAGS solver.size(), 0) «« "Need a solver definition to train." 
CHECK(!FLAGS snapshot.size() || !FLAGS weights.size()) 
<< "Give a snapshot to resume training or weights to finetune " 


"put not both."; 


caffe::SolverParameter solver param; 


caffe::ReadProtoFromTextFileOrDie(FLAGS solver, &solver param); 


// 如 果 未 提供 gpus 标志 ， 则 从 solver prototxt 获得 计算 模式 和 设备 
if (FLAGS gpu.size() -- 
&& solver param.solver mode() == caffe::SolverParameter SolverMode GPU) | 
if (solver param.has device id()) { 
FLAGS gpu = "" + 
boost::lexical cast«string»(solver param.device id()); 
} else { // 设置 默认 GPU 设备 号 


FLAGS gpu = "" + boost::lexical cast«string» (0); 


vector<int> gpus; 
get gpus(&gpus); 
if (gpus.size() == 0) { 
Caffe::set mode (Caffe::CPU); 
} else { 
ostringstream s; 
for (int i = 0; i < gpus.size(); ++i) ( 
5 << (i ? ", " a "") << gpus[i]; 
} 
LOG (INFO) << "Using GPUs " << s.str(); 


solver param.set device id(gpus[0]); 
Caffe: :SetDevice (gpus[0]); 
Caffe: :set_mode (Caffe: : GPU); 


Caffe::set_solver_count(gpus.size()); 


ww ai bbt. com [1 EH B D 7. UU 


236 ”深度 学 习 ; 21 KKK Caffe 





shared_ptr<Solver<float>>solver (caffe::GetSolver<float>(solver_param) ); 


if (FLAGS snapshot.size()) { 
LOG(INFO) << "Resuming from " << FLAGS snapshot; 
solver->Restore (FLAGS snapshot.c_str()); 

} else if (FLAGS weights.size()) { 
CopyLayers(solver.get(), FLAGS weights); 

} 


if (gpus.size() > 1) { 
caffe::P2PSynccfloat»sync(solver, NULL, solver->param()); 
sync.run(gpus); 

) else { 
LOG(INFO) «« "Starting Optimization"; 
solver-»Solve(); 

} 

LOG (INFO) << "Optimization Done."; 

return 0; 

} 


RegisterBrewFunction (train) ; 


// 预测 :使 用 模型 打分 

int test() { 
CHECK GT(FLAGS model.size(), 0) << "Need a model definition to score."; 
CHECK GT(FLAGS weights.size(), 0) << "Need model weights to score."; 


// 设置 设备 ia 和 模式 

Vector<int> gpus; 

get gpus(&gpus) ; 

if (gpus.size() != 0) { 
LOG(INFO) << "Use GPU with device ID " << gpus[0]; 
Caffe::SetDevice (qpus [0] ) 
Caffe::set mode (Caffe::GPU) ; 


— 


else { 

LOG(INFO) «« "Use CPU."; 
Caffe::set mode (Caffe: CPU); 
} 

// 实例 化 caffe net 対象 
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Net<float> caffe net(FLAGS model, caffe::TEST); 
caffe net.CopyTrainedLayersFrom(FLAGS weights); 
LOG(INFO) «« "Running for " «« FLAGS iterations «« " iterations."; 


vector«Blob«float»* » bottom vec; 
vector«int» test score output id; 
vector«float» test score; 

0; 

0; i < FLAGS iterations; ++i) { 


ll 


float loss 


for (int i 
float iter loss; 
const vector<Blob<float>*>& “result = 
caffe net.Forward(bottom vec, &iter loss); 
loss += iter loss; 
int idx = 0; 
for (int j = 0; j < result.size(); **j) { 
const float* result vec = result[j]-»cpu data(); 
for (int k = 0; k < result[j]-»count(); ++k, ++idx) { 
const float score = result_vec[k]; 
if (i == 0) | 
test_score.push_back(score) ; 
test score output id.push back(j); 
) else 1 
test score[idx] += score; 
} 
const std::string& output name = caffe_net.blob_names() [ 


caffe net.output blob indices() []] ] 
LOG (INFO) << "Batch " << i << ", " << output name << " = " << score; 


) 
loss /= FLAGS iterations; 


LOG(INFO) «« "Loss: " «« loss; 
for (int i = 0; i < test score.size(); ++i) { 
const std::string& output name = caffe_net.blob_names() [ 
caffe net.output blob indices() [test score output id[i]]]; 
const float loss weight = caffe net.blob loss weights()| 
caffe net.output blob indices()[test score output id[i]]]; 
std::ostringstream loss msg stream; 


const float mean score - test score[i] / FLAGS iterations; 
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loss msg stream «« " (* " «« loss weight 
<< "= " << loss weight * mean score <<" loss)"; 
} 
LOG(INFO) << output name << " = " << mean score << loss msg stream 
} 
return 0; 


} 
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if (loss weight) 


{ 


RegisterBrewFunction (test); 


// 计时 : 评测 模型 执行 时 间 


int 


time() { 


«Ste ty 


CHECK GT(FLAGS model.size(), 0) << "Need a model definition to time."; 


// 设置 设备 id 和 模式 


vector«int» gpus; 


get gpus(&gpus); 


if (gpus.size() != 


ーー 


! 


0) { 


LOG(INFO) «« "Use GPU with device ID " «« gpus[0]; 


Caffe::SetDevice (gpus [0] ) : 


Caffe::set mode (Cafte: :GPU) : 


else { 


LOG(INFO) << "Use CPU."; 


Caffe::set mode(Caffe::CPU); 


// 实例 化 一 个 caffe net z 
Net<float> caffe net(FLAGS model, caffe::TRAIN); 


// 做 一 次 干净 的 前 向 ， 反 向 流程 ， 保 证 完成 存储 区 分 配 


LOG (INFO) 


<< "Performing Forward"; 


// 速度 测试 ， 网 络 不 需要 任何 输入 Blob 


float initial loss; 


caffe net.Forward(vector«Blob«float»*»(), &initial loss); 


LOG(INFO) << "Initial loss: " << initial loss; 


LOG(INFO) «« "Performing Backward"; 


caffe net.Backward(); 
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const vector«shared ptr«Layer«float»»»& layers = caffe net.layers(); 
const vecter<vector<Blob<float>*>>& bottom vecs = caffe net.bottom vecs(); 
const vector<vector<Blob<float>*>>& top vecs = caffe net.top vecs(); 
const vector<vector<bool>>& bottom need backward = 
caffe net.bottom need backward(); 
LOG(INFO) << "*** Benchmark begins ***"; 
LOG(INFO) << "Testing for " << FLAGS iterations << " iterations."; 
Timer total timer; 
total timer.Start(); 
Timer forward timer; 
Timer backward timer; 
Timer timer; 
std::vector<double> forward time per layer(layers.size(), 0.0); 
std::vector«double» backward time per layer(layers.size(), 0.0); 
double forward time - 0.0; 
double backward time = 0.0; 
for (int j = 0; j < FLAGS iterations; ++j) | 
Timer iter timer; l 
iter timer.Start(); 
forward timer.Start(); 
for (int i = 0; i < layers.size(); ++i) { 
timer.Start():; 
layers[i]-»Forward(bottom vecs[i], top vecs[il); 
forward time per layer[i] *- timer.MicroSeconds(); 
} 
forward time += forward timer.MicroSeconds():; 
backward timer.Start(); 
for (int i = layers.size() - 1; i >= 0; --i) 1 
timer.Start(); 
layers[i]-»Backward(top vecs[i], bottom need backward[i], 
bottom vecs[i]):; 
backward time per layer[i] += timer.MicroSeconds(); 
} 
backward time += backward timer.MicroSeconds(); 
LOG(INFO) << "Iteration: " << j + 1 << " forward-backward time: " 


<< iter_timer.MilliSeconds() << " ms."; 
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LOG(INFO) << "Average time per layer: "; 
for (int i = 0; i < layers.size(); ++i) { 
const caffe::string& layername = layers[i]-»layer param().name(); 
LOG(INFO) << std::setfill(' ') << std::setw(10) << layername << 
"\tforward: "<< forward time per 1ayer[i] / 1000 / 
FLAGS iterations ««" ms."; 
LOG(INFO) << std::setfill(' ') << std::setw(10) << layername << 
"Ntbackward: "<< backward time per layer[i] / 1000 / 
FLAGS iterations <<" ms."; 
) 
total timer.Stop(); 
LOG(INFO) «« "Average Forward pass: " «« forward time / 1000 / 
FLAGS iterations ««" ms."; 
LOG(INFO) << "Average Backward pass: " << backward time / 1000 / 
FLAGS iterations ««" ms."; 
LOG (INFO) << "Average Forward-Backward: " << total timer.MilliSeconds() 
FLAGS iterations ««" ms."; 
LOG(INFO) << "Total Time: " << total timer.MilliSeconds() << " ms."; 
LOG(INFO) «« "*** Benchmark ends ***"; 
return 0; 
! 


RegisterBrewFunction (time); 


int main(int arge, char** argv) | 
// 打印 输出 到 stderr 
FLAGS alsologtostderr = 1; 
// 用 法 信息 
gflags::SetUsageMessage ("command line brew\n" 
"usage: caffe <command><args>\n\n" . 


"commands : n" 


" train train or finetune a model\n" 

" test Score a model\n" 

" device query show GPU diagnostic information\n" 
" time benchmark model execution time"); 


// 运行 工具 或 显示 使 用 信息 
caffe::Globallnit(&argc, &argv); 
if (argc == 2) { 
#ifdef WITH_PYTHON_LAYER 
try { 
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#endif 
return GetBrewFunction(caffe::string(argv[1])) 0; 
#ifdef WITH PYTHON LAYER 
} catch (bp::error already set) { 
PyErr Print(); 
return 1; 
} 
#endif 
} else { 
gflags::ShowUsageWithFlagsRestrict(argv[0], "tools/caffe"); 
} 
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AK Caffe 训练 选项 、Caffe 预测 选项 、 多 GPU. finetune ( 精 週 ) 的 内 容 都 在 这 个 主 程序 


里 面 。 


14.2 ”特征 提取 


在 一 些 在 线 应 用 中 ，Caffe 常用 作 图 像 特征 提取 器 。 使 用 特征 提取 器 可 以 有 效 降低 图 像 数 据 


维度 ， 从 而 降低 传输 带宽 。 对 特征 进一步 精细 分 类 可 以 使 用 其 他 分 类 器 (如 SVM) 实现 。 


Caffe 提供 的 实用 工具 build/tools/extract features.bin 实现 了 特征 提取 功能 ， 该 程序 需要 一 
个 训练 好 的 网 络 和 一 个 数据 输入 层 ， 运 行 后 可 得 到 相应 数据 通过 网 络 某 个 中 间 层 产生 的 特征 图 


并 保存 到 磁盘 。 该 工具 用 法 如 下 : 


$ extract features \ // 可 执行 程序 


pretrained net param \ // 预 训练 的 网 络 ，* .caffemodel 
feature extraction proto file \ // 网 络 描述 文件 ，* .prototxt 
extract feature blob namel[,name2,...] NV // 需要 提取 的 Blob 名 
save feature dataset namel[,name2,...] \ // 保存 特征 名 





num mini batches V  // 做 特征 提取 的 数据 批量 数目 
db type\ // 输入 数据 的 格式 ，LMDB 或 LEVELDB 
[CPU/GPU] V // 使 用 cPU 还 是 GPU 

[DEVICE ID-0]// 如 果 使 用 GPU， 则 选择 设备 编号 


例子 : 


$ ./build/tools/extract features.bin \ 


models/bvlc reference caffenet/bvlc reference caffenet.caffemodel V 
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models/bvlc reference caffenet/train val.prototxt \ 
fc6,fc7,fc8 V 

myfc6,myfc7,myfc8 \ 

10 ^ 

imdb\ 

GPU \ 

1 


E1107 05:47:51.462666 21761 extract features,cpp:54] Using GPU 
E1107 05:47:51.463057 21761 extract features.cpp:60] Using Device id-1 
E1107 05:47:58.369420 21761 extract features.cpp:135] Extacting Features 


E1107 05:48:00.384551 21761 extract features.cpp:181] Extracted features of 500 query 
images for feature blob fc6 


E1107 05:48:00.662539 21761 extract features.cpp:181] Extracted features of 500 query 
images for feature blob fc7 


E1107 05:48:00.875463 21761 extract features.cpp:181] Extracted features of 500 query 
images for feature blob fc8 


E1107 205:48:01.086578 21761 extrac features.cpp:186] Successfully extracted the 
features! 


$ ls -l1 myfc* 

myfcé: 

total 12032 

-rw-rw-r-- 1 yourname yourname 12316672 Nov 7 05:48 data.mdb 


-rw-rw-r-- l yourname yourname 8192 Nov 7 05:47 lock.mdb 


myfc?: 
total 12032 


-rw-rw-r-- l yourname yourname 12316672 Nov 7 05:48 data.mdb 


-rw-rw-r-- 1 yourname yourname 8192 Nov 7 05:47 lock.mdb 
myfc8: 
total 4032 


-rw-rw-r-- 1 yourname yourname 4124672 Nov 7 05:48 data.mdb 


-rw-rw-r-- 1 yourname yourname 8192 Nov 7 05:47 lock.mdb 


下 面 看 代码 实现 tools/extract features.cpp: 


#include <stdio.h> // for snprintf 
#include <string> 


#include <vector> 
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#include "boost/algorithm/string.hpp" 


#include "google/protobuf/text format.h" 


#include "caffe/blob.hpp" 


#include "caffe/common.hpp" 


#include "caffe/net.hpp" 


#include "caffe/proto/caffe.pb.h" 
#include "caffe/util/db.hpp" 


*include "caffe/util/io.hpp" 


#include "caffe/vision layers.hpp" 


using 
using 
using 
using 
using 


using 


caffe: :Blob; 
caffe::Caffe; 
caffe::Datum; 
caffe::Net; 
boost::shared ptr; 


std::string; 


namespace db - caffe::db; 
// 提前 声明 处 理 函 数 


template<typename Dtype> 


int feature extraction pipeline(int argc, char** argv); 


int main(int argc, char** argv) { 
// FHA Ae Ab PEER Tt 


return feature extraction pipeline«float»(argc, argv); 


// return feature extraction pipeline«double»(argc, argv); 


} 


// 处 理 函 数 实 现 
template<typename Dtype> 


int feature extraction pipeline(int argc, char** argv) | 
::google::InitGoogleLogging(argv[0]); // 初始 化 日 志 系 统 
const int num required args = 7; 
if (argc < num required args) ( // 判断 命令 行 参 数 个 数 ， 小 于 7 个 则 报错 
LOG (ERROR) «« 


"This program takes in a trained network and an input data layer, 


"extract features of the input data produced by the net.\n" 


"Usage: extract features pretrained net param" 


" 


feature extraction proto file extract feature blob namel[,name2,.. 


save feature dataset namel[,name2,...] num mini batches db type" 
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" [CPU/GPU] [DEVICE ID=0] \n" 
"Note: you can extract multiple features in one pass by specifying" 
" multiple feature blob names and dataset names seperated by ','." 
" The names cannot contain white space characters and the number of blobs" 
" and datasets must be equal."; 
return 1; 
} 


int arg pos = num required args; 


arg pos = num required args; // -重复 代码 .… 
// 获得 CPU/GPU. GPU ID 等 命令 行 参数 值 
if (argc > arg pos && strcmp(argv[arg pos], "GPU") == 0) { 
LOG(ERROR)«« "Using GPU"; 
uint device id - 0; 
if (argc > arg pos + 1) { 
device id = atoi(argv[arg pos + 1]); 
CHECK GE(device id, 0); 
} 
LOG (ERROR) << "Using Device id=" << device id; 
Caffe::SetDevice(device id); 


Caffe::set mode (Caffe: :GPU) ; 


— 


else { 
LOG(ERROR) «« "Using CPU"; 
Caffe::set mode (Caffe::CPU); 


arg pos - 0; 
std::stringpretrained binary proto(argv[++arg pos]);// 获得 预 训练 模型 的 文件 名 (* ょ .caffemode1 ) 


// 获得 网 络 描述 文件 名 (*.prototxt) 
std::string feature extraction proto(argv[++arg pos]); 
// 用 * .prototxt 创建 一 个 Net 对象， 设置 当前 为 测试 阶段 
shared ptr<Net<Dtype>> feature extraction net( 
new Net«Dtype»(feature extraction proto, caffe::TEST)); 
// 从 预 训练 模型 + . cat femodel Hil weight. bias 到 新 建 的 Net 中 
feature extraction net-»CopyTrainedLayersFrom(pretrained binary proto); 
// 获取 待 提取 特征 所 在 Blob 的 名 称 
std::string extract feature blob names(argv[++arg_pos]); 


std::vector«std::string» blob names; 
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boost::split(blob names, extract feature blob names, boost::is any of(",")); // 将 命 
令 行 输入 的 名 称 转换 为 字符 串 vector 数组 
// 获取 用 于 保存 特征 的 文件 名 
std::string save feature dataset names (argv [++arg pos]); 
std::vector«std::string» dataset names; 
boost::split(dataset names, save feature dataset names, 
boost::is any of(","));// 将 命令 行 输入 名 称 转 换 为 字符 串 vector 数组 
// 确保 两 个 数组 维度 相同 
CHECK EQ(blob names.size(), dataset names.size()) << 
" the number of blob names and dataset names must be equal"; 
size t num features - blob names.size(); 
// 确保 新 建 的 网 络 中 包含 待 提取 特征 的 Blob 名 称 ， 和 否则 报错 
for (size t i = 0; i « num features; i++) { 
CHECK (feature extraction net-»has blob(blob names[i])) 
«« "Unknown feature blob name "«« blob names[i] 
<<" in the network " << feature extraction proto; 
! 
// 获得 批量 数目 ， 而 每 个 批量 包含 的 图 片 数 在 * ,prototxt 中 的 data layer 参数 中 指定 


int num mini batches = atoi(argv[**arg posl); 


std::vector«shared ptr<db::DB>> feature dbs; 
std::vector«shared ptr«db::Transaction»» txns; 
const char* db type = argv[**arg pos]; 
for (size t i = 0; i < num features; ++i) { 
LOG(INFO)«« "Opening dataset " << dataset names[i]; 
shared ptr«db::DB»db(db::GetDB(db type)); 
db->Open (dataset_names.at(i), db::NEW); 
feature _dbs.push_back (db) ; 
Shared ptr«db::Transaction»txn(db-»NewTransaction()); 


txns.push back(txn); 


LOG(ERROR)«« "Extacting Features"; 


Datum datum; 

const int kMaxKeyStrLength - 100; 
char key str[kMaxKeyStrLength]; 
std::vector<Blob<float>*> input vec; 


std::vector<int> image indices(num features, 0); 


for (int batch index = 0; PaFTFWWWaPBbt-comHHHHHHH ++batch index) | 
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feature extraction net-»Forward(input vec); 
for (int i = 0; i < num features; ++i) { 
const shared ptr«Blob«Dtype»» feature blob = feature extraction net 
-»blob by name(blob names[i]); 
int batch size = feature blob-»num(); 
int dim features = feature blob-»count() / batch size; 
const Dtype* feature blob data; 
for (int n = 0; n « batch size; ++n) { 
datum.set height(feature blob-»height()); 
datum.set width(feature blob-»width()); 
' datum.set channels(feature blob-»channels()); 
datum.clear data(); 
datum.clear float data(); 
feature blob data = feature blob-^cpu data() + 
feature blob-»offset (n); 
for (int d = 0; d < dim features; ++d) { 
datum.add float data(feature blob data[d]); 
} 
int length = snprintf(key str, kMaxKeyStrLength, "£010d", 
image indices[i]):; 
string out; 
CHECK (datum.SerializeToString(&out)); 
txns.at(i)-»Put(std::string(key str, length), out); 
++image indices[i]; 
if (image indices[i] % 1000 == 0) { 
txns.at(i)-»Commit(); 
txns.at(i).reset(feature dbs.at(i)-»NewTransaction()]; 
LOG(ERROR)«« "Extracted features of " «« image indices[i] «« 
"query images for feature blob " << blob rames[i]; 
! 
} // for (int n = 0; n < batch size; ++n) 
} // for (int i = 0; i < num features; ++i) 
) // for (int batch index = 0; batch index < num mini batches; **batch index) 
// 与 最 后 一 批 
for (int i = 0; i « num features; ++i) | 
if (image indices[i] % 1000 != 0) | 
txns.at(i)-»Commit (); 
} 


LOG (ERROR) << "Extracted features of " << image indices[i] << 
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" query images for feature blob " << blob names[i]; 


feature dbs.at(i)-»Close(); 


LOG(ERROR)«« "Successfully extracted the features!"; 


return 0; 


14.3 ”转换 图 像 格 式 














在 Caffe 数据 输入 层 所 有 数据 都 以 LEVELDB 或 LMDB 形式 提供 。 为 此 需要 在 预 处 理 阶段 
将 不 同 数据 集 转换 为 LEVELDB 或 LMDB 格式 。 第 6 天 内 容 已 经 介绍 了 MNIST 数据 集 图 像 转 
换 的 过 程 。 今 天 我 们 继续 研读 CIFAR10 和 ImageNet 两 个 数据 集 的 图 像 格式 转换 过 程 。 





CIFAR10 图 像 格式 转换 程序 位 于 examples/cifar10/ convert cifar data.cpp: 


// 

// 该 程序 将 CIFAR 数据 集 转换 为 caffe 需要 的 格式 

// 用 法 : 

// convert cifar data input folder output db file 
// CIFAR 数据 集 从 这 里 下 载 : 

// http://www.cs.toronto.edu/-kriz/cifar.html 





#include <fstream> // NOLINT(readability/streams) 


#include <string> 


include "boost/scoped ptr.hpp" 
#include "glog/logging.h" 
#include "google/protobuf/text format.h" 


#include "stdint.h" 





#include "caffe/proto/caffe.pb.h" 
#include "caffe/util/db.hpp" 


using caffe::Datum; 

using boost::scoped_ptr; 
using std::string; 
namespace db = caffe::db; 


// CIFAR 数据 集 图 像 尺寸 为 32 x 32 
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const int kCIFARSize - 32; 
const int kCIFARImageNBytes - 3072; 
const int kCIFARBatchSize = 10000; 
const int kCIFARTrainBatches - 5; 
// 从 文件 file 读 取 图 像 数据 到 buffer 和 label 缓冲 区 
void read image(std::ifstream* file, int* label, char* buffer) { 
char label char; 
file-»read(&label char, 1); 
*label - label char; 
file->read(buffer, kCIFARImageNBytes) ; 
return; 
} 
// 转换 图 像 格式 核心 代码 


void convert dataset(const string& input folder, const string& output folder, 





const string& db type) { 
scoped ptr«db::DB» train db(db::GetDB(db type)); // 创建 db 句柄 
// 打开 db 
train db-»Open(output folder + "/cifarl0 train " + db type, db::NEW); 
scoped ptr«db::Transaction»txn(train db-»NewTransaction()); 
// 数据 缓冲 区 ， 用 于 读 取 一 张 CrFAR 图 片 和 对 应 标签 
int label; 
char str buffer[kCIFARImageNBytes]; 
Datum datum; 
datum.set channels (3); 
datum.set height (kCIFARSize) ; 
datum.set width (kCIFARSize) ; 
// 写 训练 数据 集 
LOG(INFO) «« "Writing Training data"; 
for (int fileid = 0; fileid < kCIFARTrainBatches; ++fileid) { 
// 读 取 文件 
LOG(INFO) «« "Training Batch " «« fileid + 1; 
snprintf(str buffer, kCIFARImageNBytes, "/data batch $d.bin", fileid + 1); 
std::ifstream data file((input folder + str buffer).c str(), 
std::ios::in | std::ios::binary); 
CHECK(data file) << "Unable to open train file #" << fileid + 1; 
for (int itemid = 0; itemid < kCIFARBatchSize; ++itemid) { 
read image(&data file, &label, str buffer); // 从 文件 读 入 数据 缓冲 区 
datum.set label(label); // 记录 标签 
datum.set data(str buffer, kCIFARImageNBytes); // 记录 图 像 数据 
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int length = snprintf(str buffer, kCIFARImageNBytes, "$£05d", 
fileid * kCIFARBatchSize + itemid); 

string out; 

CHECK(datum.SerializeToString(&out)); // 序列 化 为 字符 串 

txn-»Put(string(str buffer, length), out); // 写 入 db 


} 
txn-»Commit(); 
train db-»Close(); 
// 写 测试 数据 集 ， 过 程 与 写 训 练 数据 集 类 似 
LOG(INFO) << "Writing Testing data"; 
scoped ptr«db::DB» test db(db::GetDB(db type)); 
test db-»Open(output folder + "/cifarl0 test " + db type, db::NEW); 
txn.reset(test db-»NewTransaction()); 
// SIE XH 
std::ifstream data file((input folder + "/test batch.bin").c str(), 
std::ios::in | std::ios::binary); 
CHECK(data file) «« "Unable to open test file."; 
for (int itemid = 0; itemid < kCIFARBatchSize; ++itemid) { 
read image(&data file, &label, str buffer); 
datum.set label(label); 
datum.set data(str buffer, kCIFARImageNBytes); 
int length = snprintf(str buffer, kCIFARImageNBytes, "$05d", itemid); 
string out; 
CHECK (datum.SerializeToString(&out)); 
txn-»Put(string(str buffer, length), out); 
} 
txn-»Commit(); 
test db-»Close(); 
} 
// 主 函 数 
int main(int argc, char** argv) { 
if (argc != 4) { 
printf("This script converts the CIFAR dataset to the leveldb format used\n" 
"by caffe to perform classification. Wn" 
"Usage:Nn" 
9 convert cifar data input folder output folder db type\n" 
"Where the input folder should contain the binary batch files.\n" 
"The CIFAR dataset could be downloaded atn" 
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" 


http://www.cs.toronto.edu/-kriz/cifar.html Wn" 
"You should gunzip them after downloading.\n"); 
} else { 


google: :InitGoogleLogging (argv[0]); 


convert dataset (string(argv[1]), string(argv[2]), string(argv[3])); 


} 


return 0; 





ImageNet 数据 集 转换 程序 位 于 tools/convert_imageset.cpp 中 : 


// 该 程序 将 一 组 图 像 集 转换 为 Imdb/levelab 格式 

// 用 法 : 

// convert imageset [FLAGS] ROOTFOLDER/ LISTFILE DB NAME 
"Pa 

// 上 面 命令 行 参数 ROOTFOLDER 为 存放 所 有 图 片 的 根 目录 

// LISTFILE 是 一 个 文本 文件 ， 记 录 了 图 片 文件 与 对 应 标签 的 映射 和 关系， 格式 为 : 
//  subfolderl/filel.JPEG 7 

// 每 行 一 条 记录 

// 


#include «algorithm» 

#include «fstream» // NOLINT (readability/streams) 
#include <string> 

#include «utility» 


#include <vector> 


#include "boost/scoped ptr.hpp" 
finclude "gflags/gflags.h" 
#include "glog/logging.h" 


#include "caffe/proto/caffe.pb.h" 
#include "caffe/util/db.hpp" 
#include "caffe/util/io.hpp" 
#include "caffe/util/rng.hpp" 


using namespace caffe; // NOLINT(build/namespaces) 


using std::pair; 


using boost::scoped ptr; 


ww ai bbt. com [1 EH BO D. D. UU 


第 14 天 Caffe 实用 工具 


251 





DEFINE bool(gray, false, 

"When this option is on, treat images as grayscale ones"); 
DEFINE bool(shuffle, false, 

"Randomly shuffle the order of images and their labels"); 
DEFINE string (backend, "Imdb", 

"The backend {lmdb, leveldb) for storing the result"); 

DEFINE int32(resize width, 0, "Width images are resized to"); 
DEFINE int32(resize height, 0, "Height images are resized to"); 
DEFINE bool(check size, false, 

"When this option is on, check that all the datum have the same size"); 
DEFINE bool(encoded, false, 

"When this option is on, the encoded image will be save in datum"); 
DEFINE string(encode type, "", 

"Optional: What type should we encode the image as ('png','jpg',...)."): 


int main(int argc, char** argv) { 


::google::InitGoogleLogging(argv[0]); 


#ifndef GFLAGS GFLAGS H_ 
namespace gflags = google; 
#endif 


gflags::SetUsageMessage ("Convert a set of images to the leveldb/1mdb\n" 
"format used as input for Caffe.\n" 
"Usage: Mn" 
1 convert imageset [FLAGS] ROOTFOLDER/ LISTFILE DB NAMENn" 
"The ImageNet dataset for the training demo is at\n" 
i http://www.image-net.org/download-images Mn"); 


gflags::ParseCommandLineFlags(&argc, &argv, true); 


if (argc < 4) { 


gflags::ShowUsageWithFlagsRestrict(argv[0], "tools/convert imageset"); 
return 1; 

) 

const bool is color = !FLAGS gray; 


const bool check size = FLAGS check size; 
const bool encoded - FLAGS encoded; 


const string encode type - FLAGS encode type; 
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std::ifstream infile(argv[2]); 
std::vector<std::pair<std::string, int>> lines; 
std::string filename; 
int label; 
while (infile >> filename >> label) { 
lines.push back(std::make pair(filename, label)); 
. 
if (FLAGS shuffle) { 
// 随机 打 乱 数据 
LOG(INFO) << "Shuffling data"; 
shuffle(lines.begin(), lines.end()); 
} 


LOG(INFO) << "A total of " << lines.size() << " images."; 


if (encode type.size() && !encoded) 


LOG(INFO) «« "encode type specified, assuming encoded-true. 


int resize height - std::max«int»(0, FLAGS resize height); 


int resize width = std::max«int»(0, FLAGS resize width); 


// 创建 新 的 db 
scoped ptr«db::DB»db(db::GetDB(FLAGS backend)); 
db->Open (argv[3], db::NEW) ; 


scoped ptr«db::Transaction»txn (db->NewTransaction() ); 


// 保存 至 db 

std::string root folder (argy [1 ) 
Datum datum; 

int count - 0; 

const int kMaxKeyLength = 256; 
char key cstr[kMaxKeyLength]; 

int data size - 0; 


bool data size initialized - false; 


for (int line id = 0; line id < lines.size(); ++line_id) 1 
bool status; 
std::string enc - encode type; 


if (encoded && !enc.size()) { 
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// 从 文件 名 猜测 编码 方式 
string fn = lines[line id].first; 
size t p — fn.xfind('.'); 
if ( p == fn.npos ) 
LOG(WARNING) << "Failed to guess the encoding of '" << fn << "'"; 
ene — fn.substr(p); 
std::transform(enc.begin(), enc.end(), enc.begin(), ::tolower); 
} 
status = ReadImageToDatum(root folder + lines[line id].first, 
lines[line id].second, resize height, resize width, is color, 
enc, &datum); 
if (status == false) continue; 
if (check size) ( 
if (!data size initialized) ( 
data size = datum.channels() * datum.height() * datum.width(); 
data size initialized - true; 
) else í 
const std::string& data - datum.data(); 
CHECK EQ(data.size(), data size) «« "Incorrect data field size " 


««data.size(); 


} 
// 序列 化 
int length = snprintf(key cstr, kMaxKeyLength, "$08d $s", line id, 


lines[line id].first.c str()); 


// BA db 

string out; 

CHECK (datum. SerializeToString (&out)); 
txn->Put (string(key cstr, length), out); 


if (++count % 1000 == 0) { 
// 提交 
txn-»Commit (); 
txn.rese (db-»NewTransaction()); 


LOG(ERROR) << "Processed " << count << " files."; 


} 
// 写 最 后 一 批 数据 
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if (count $ 1000 != 0) { 

txn->Commit () ; 

LOG (ERROR) << "Processed " << count << " files."; 
} 


return 0; 


144 ”计算 图 像 均 值 


在 数据 读 取 层 的 Transform 阶段 需要 去 均值 操作 。 均 值 文件 一 般 需 要 用 原始 数据 计算 得 
到 ， 本 节 将 介绍 Caffe 中 这 一 工具 的 实现 ， 其 位 于 tools/compute_image_mean.cpp。 


#include <stdint.h> 
#include <algorithm> 
#include <string> 
#include «utility» 


#include <vector> 





#include "boost/scoped ptr.hpp" 
#include "gflags/gflags.h" 
finclude "glog/logging.h" 


#include "caffe/proto/caffe.pb.h" 
#include "caffe/util/db.hpp" 
Rinclude "caffe/util/io.hpp" 


using namespace caffe; // NOLINT (build/namespaces) 


using std::max; 
using std::pair; 
using boost::scoped ptr; 
// 命令 行 可 以 指定 使 用 Imdb 或 leveldb 作为 输入 图 像 源 
DEFINE string(backend, "lmdb", 
"The backend {leveldb, lmdb} containing the images"); 


int main(int argc, char** argv) ( 


::google::InitGoogleLogging(argv[0]); // 初始 化 GLOG 


#ifndef GFLAGS GFLAGS 日 
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namespace gflags = google; 
fendif 
// 设置 GFLAGS 命令 行 提示 信息 
gflags::SetUsageMessage("Compute the mean image of a set of images given by" 
"a leveldb/Imdb\n" 
"Usage:Mn" 


d compute image mean [FLAGS] INPUT DB [OUTPUT FILE]Nn"); 
gflags::ParseCommandLineFlags(&argc, &argv, true); // 解析 命令 行 参数 


if (arge < 2 || arge > 3) | 
gflags::ShowUsageWithFlagsRestrict(argv[0], "tools/compute image mean"); 


return 1; 


scoped ptr«db::DB» db(db::GetDB(FLAGS backend)); // 获得 输入 数据 的 db 类 型 ， 并 创建 对 象 
db-»Open(argv[1], db::READ); // 以 只 读 方式 打开 ,db 文件 
scoped ptr«db::Cursor» cursor(db-»2NewCursor()); // 创建 db 指针 


BlobProto sum blob; // 求 和 、 取 平均 就 靠 它 了 
int count = 0; 

// 获取 第 一 个 ap 数据 

Datum datum; 


datum.ParseFromString(cursor-»value()); 


if (DecodeDatumNative(&datum)) | 
LOG(INFO) «« "Decoding Datum"; 
} 
// sum blobo 尺寸 为 1 x Cx Hx W 
sum_blob.set_num(1); 
sum blob.set channels (datum. channels () ) 
sum blob.set height (datum.height ()); 
sum blob.set width (datum.width()); 
const int data size - datum.channels() * datum.height() * datum.width(); 
int size in datum - std::max«int»(datum.data().size(), 
datum.float data size()); 
// 初始 化 数据 为 0 
for (int i = 0; i < size in datum; ++i) { 
sum blob.add data(0.); 
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) 
LOG(INFO) «« "Starting Iteration"; 
while (cursor->valid()) { // 开始 大 循环 
Datum datum; 
datum.ParseFromString(cursor-»value()); // 获得 一 个 datum 


DecodeDatumNative(&datum); // 解码 


const std::string& data - datum.data(); 
size in datum = std::max«int»(datum.data().size(), 
datum.float data size()); 
CHECK EQ(size in datum, data size) «« "Incorrect data field size " «« 
size in datum; 
if (data.size() != 0) { 
CHECK EQ(data.size(), size in datum); 
for (int i = 0; i < size in datum; ++i) { 
sum blob.set data(i, sum blob.data(i) + (uint8 t)data[i]); 
} 
} else { 
CHECK EQ(datum.float data size(), size in datum); 
for (int i = 0; i < size in datum; ++i) | 
sum blob.set data(i, sum blob.data(i) + 


static cast«float»(datum.float data(i))); 


) 
++count; 
if (count % 10000 == 0) { 
LOG(INFO) << "Processed " << count << " files."; 
) 
cursor-»Next(); 


} 


if (count % 10000 != 0) { 
LOG (INFO) << “Processed " << count << " files."; 
) 
for (int i = 0; i < sum blob.data size(); ++i) { 
sum blob.set data(i, sum blob.data(i) / count); 
} 
// 写 到 磁盘 ， 以 二 进 制 ProtoBuffer 文件 格式 保存 
if (argc == 3) ( 
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LOG(INFO) «« "Write to " «« argv[2]: 

WriteProtoToBinaryFile(sum blob, argv[2]); 
! 
const int channels - sum blob.channels(); 
const int dim = sum blob.height() * sum blob.width(); 
std::vector<float> mean values(channels, 0.0); 
LOG(INFO) << "Number of channels: " << channels; 
for (int c = 0; e < channels; ++c) | 

for tint i 0; i < dim; tvi) { 

mean values[c] += sum blob.data(dim * c + i); 

| 5 

LOG (INFO) << "mean value channel [" << c << "]:" << mean values[c] / dim; 
} 


return 0; 


14.5 ”自己 编写 工具 


无 论 什 么 工具 ， 最 初 的 出 发 点 都 是 为 了 满足 某 个 需求 。 这 个 需求 可 能 来 自 客 户 、 老 板 、 同 
事 、 导 师 、 网 友 求助 ， 然 而 最 大 的 需求 方 往往 是 开发 者 自己 。 经 常 思考 并 针对 自己 实际 工作 学 
习 中 直到 的 各 类 困惑 ， 创 造 性 地 编写 一 些 工具 能 大 大 提高 效率 并 触发 更 多 灵感 ， 促 进 对 深度 学 
习 理论 和 Caffe 代码 框架 的 理解 。 通 过 今天 的 学 习 ， 读 者 可 以 尝试 记录 下 每 天 自己 的 困惑 ， 转 
化 为 具体 需求 并 用 代码 实现 ， 你 将 有 希望 成 长 为 优秀 的 产品 经 理 。 


14.6 ”练习 题 


L 写 一 个 简单 的 权 值 抽取 工具 ， 从 已 经 训练 好 的 Caffe 模型 导出 权 值 到 文件 。 


2， 写 一 个 计算 已 经 训练 好 的 Caffe 模型 权 值 最 大 值 、 最 小 值 、 平 均值 的 工具 。 

3. 前 面 几 个 工具 都 只 是 单线 程 的 应 用 程序 ,每 次 启动 都 需要 经 历 构建 网 络 、 初 始 化 权 值 等 
过 程 ， 不 适合 实际 互联 网 在 线 系统 。 为 了 重用 网 络 ， 需 要 将 其 常 驻 内 存 ， 成 为 服务 ， 当 有 请 求 
时 《例如 用 户 上 传 一 张 图 片 ) 触发 一 次 过 网 络 操作 。 读 者 可 以 尝试 在 特征 提取 例 程 基础 上 进行 
修改 ， 得 到 服务 化 的 Caffe. WRX Web 服务 不 熟悉 ， 可 以 参考 NVIDIA DIGITS 工具 的 源码 
C https://developer.nvidia.com/digits ) 。 
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局 尾 语 


中 篇 。， 热 恋 主要 内 容 是 深入 源码 近 距 离 观 察 了 Caffe 内 部 运作 方式 ， 了 解 了 深度 学 习 的 一 
些 基 础 概念 如 何 映射 为 代码 实现 ， 拉 近 了 程序 员 与 科学 家 的 距离 。 从 事 科 研 工作 的 读者 可 以 从 
中 学 习 如 何 将 自己 的 想法 转化 为 代码 实现 ， 而 从 事 一 线 开发 的 程序 员 读 者 可 以 从 中 学 习 代 但 背 
”后 的 理论 知识 ， 充 实 自己 的 算法 设计 。 如 果 读 者 看 完 本 篇 仍 意犹未尽 ， 不 如 pull 最 新 源码 ， 结 
合 本 篇 的 方法 ， 再 从 头 阅读 一 遍 枝 干 代码 ， 相 信 会 有 驾轻就熟 之 感 。 


本 篇 介绍 了 几 种 阅读 代码 的 策略 ， 可 以 有 效 帮 助 读者 应 付 绝 大 多 数 框架 。 简 单 来 说 ， 有 数 
Pik. eA ROB. HL SEES. 调试 跟踪 等 几 种 方法 ， 可 以 任意 组 合 发 挥 其 各 自 功效 ， 相 
信 读 者 在 阅读 其 他 框架 时 使 用 这 些 方式 能 游刃有余 。 


无 论 我 们 从 事 哪 方面 工作 ， 学 习 的 目的 都 是 为 了 获得 上 自由。 和 掌握 了 C++ 即 获得 阅读 Caffe 
代码 的 自由 ; 掌握 了 Caffe 实现 即 获 得 使 用 深度 学 习 框 染 的 自由 ; 掌握 了 深度 学 习 理 论 即 获得 
数据 选取 、 模 型 调 参 的 自由 ， 掌握 了 GPU/CUDA 即 获得 计算 加 速 的 自由 …… 随 着 学 习 的 深入 ， 
相信 你 会 不 断 扩大 自由 活动 空间 ， 最 终 达到 财务 自由 。 
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下 篇 升华 


曾经 沧海 难为 水 ， 除 却 巫山 不 是 云 
取 次 花丛 懒 回顾 ， 半 缘 修 道 半 缘 君 
寻常 百 种 花 齐 发 ， 偏 摘 梨 花 与 白人 
今日 江 头 两 三 树 ， 可 怜 和 叶 度 残 春 
一 一 元 积 《 离 思 五 首 。 HO) 


gie apeiron RU diia 一 台 普 通 笔记 本 电脑 就 能 完成 前 面 所 有 
实验 。 但 从 本 篇 开始 ， 我 们 就 要 考虑 实际 生产 和 应 用 环境 下 如 何 部 署 Caffe, 追求 高 性 能 、 快速 
迁移 部 署 、 特 定 应 | : 下 的 适 配 。 


wwvaibbt.com 0000000 


第 1D 天 
Caffe 计算 加 速 


通过 上 篇 和 中 篇 我 们 了 解 了 Caffe 的 使 用 和 具体 实现 细节 ， 但 一 直 是 在 CPU 上 运行 ,速度 
较 慢 ， 只 适合 跑 一 些小 模型 。 今 天 我 们 体验 一 下 Caffe GPU/cuDNN 加 速 模式 。 掌 握 利用 GPU 
加 速 深 度 学 习 或 其 他 问题 的 方法 ， 可 以 让 你 成 长 为 优秀 的 软件 优化 工程 师 。 这 个 六 位 一 般 由 算 
法 工程 师 兼任 ， 实 际 上 算法 工程 师 更 多 关注 某 个 领域 算法 在 理论 方面 的 优化 ， 而 软件 优化 工程 
师 则 与 领域 相关 度 不 高 ， 只 是 根据 实际 硬件 架构 合理 调整 算法 步骤 和 语句 ， 同 时 保证 算法 输入 
和 输出 不 变 ， 使 软件 在 特定 硬件 上 达到 最 高 运算 效率 。 在 大 多 数 企业 中 该 类 人 才 缺 口 非常 大 。 


15.1 Caffe 计时 功能 


编译 好 的 Caffe 可 以 通过 运行 caffe time 命令 ， 对 当前 平台 《目前 是 CPU) 上 网 络 各 层 前 向 / 
后 向 计算 进行 计时 : 
$ ./build/tools/caffe.bin time \ 


-model examples/mnist/lenet train test.prototxt 


10405 14:52:34.514957 1965830144 caffe.cpp:312] Use CPU. 

I0405 14:52:34.520442 1965830144 net.cpp:313] The NetState phase (0) differed from the 
phase (1) specified by a rule in layer mnist 

I0405 14:52:34.520478 1965830144 net.cpp:313] The NetState phase (0) differed from the 
phase (1) specified by a rule in layer accuracy 


I0405 14:52:34.520488 1965830144 net.cpp:49] Initializing net from parameters: 
Jur sees 网 络 描述 略 





I0405 14:52:34.520659 1965830144 layer factory.hpp:77] Creating layer mnist 
gd ER 各 层 描 述 略 
I0405 14:52:34.535886 1965830144 caffe.cpp:320] Performing Forward 
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10405 
I0405 
I0405 
I0405 
10405 


10405 
10405 
10405 
10405 
10405 
10405 
10405 
10405 
10405 
I0405 
I0405 
10405 
10405 
T0405 
10405 
10405 
10405 
10405 
10405 





14:52:34.562958 
14:52:34.562996 
14:52:34.595528 
14:52:34.595584 


1965830144 
1965830144 
1965830144 
1965830144 


caffe. 
caffe. 


caffe. 


caffe 


cpp: 
cpp: 
cpp: 
. Cpp: 


325] 
326] 
334] 
335] 
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Initial loss: 


2.4196 


Performing Backward 


*** Benchmark begins *** 


Testing for 50 iterations. 


14:52:34.645946 1965830144 caffe.cpp:363] Iteration: 1 forward-backward time: 50 ms. 
// 途 代 次 数 2-49 略 
10405 14:52:37.178436 1965830144 caffe.cpp:363] Iteration: 50 forward-backward time: 50 ms. 
// 对 每 个 层 进行 计时 


14 





14: 


14 
14 


14: 
14: 
14: 
14: 
14: 


52 
52 


521 
521 


52 


ITa 
37. 
37. 
31. 
3T. 
ST. 
3T. 
ST. 
3T. 
ET. 
3T. 
ST. 
$37. 
:37. 
ST. 
37. 
:3T. 


14:52:37.178477 
14:52:37.178486 
152: 
S52 
1921 
$521 
1:592: 
1:52: 
1252: 
252 
:52: 
5S2: 
«52: 
$4591 


78504 
178514 
178520 
178527 
178534 
178541 
178549 
178555 
78562 
178568 
178575 
178581 
178588 
178594 
178601 
178608 
178614 





// 平均 前 向 传播 计算 时 间 
I0405 14:52:37.178624 
// 平均 反 向 传播 计算 时 间 


10405 14:52:37. 
// 平均 前 向 + 反 向 传 


78630 


1965830144 
1965830144 
1965830144 
1965830144 
1965830144 
1965830144 
1965830144 
1965830144 
1965830144 
1965830144 
1965830144 
1965830144 
1965830144 
1965830144 
1965830144 
1965830144 
1965830144 
1965830144 
1965830144 





1965830144 


1965830144 


播 计算 时 间 


I0405 14:52:37.178637 1965830144 


// 50 次 迭代 总 时 间 
10405 14:52:37. 


// 结束 


10405 14:52:37. 


78643 





1965830144 


caffe 
caffe 
caffe 


caffe 


caffe. 


caffe 
caffe 
caffe 


caffe 


caffe. 


caffe. 


caffe 


caffe. 


caffe 


caffe. 


caffe 


caffe 


caffe. 


caffe 


caffe. 


caffe. 


caffe. 


caffe. 


78650 1965830144 caffe. 


.Cpp: 
.Cpp: 
。 GBD* 
.Cpp: 
cpp: 
„Cpp: 
.Cpp: 
.Cpp: 
.Cpp: 
cpp: 
cpp: 
.Cpp: 
cpp: 
.Cpp: 
cpp: 
. Cpp: 
. CPP : 
CPP: 
・CPP : 


cpp: 


cpp: 


cpp: 


cpp: 


cpp: 


366] 
369] 
312] 
369] 
372] 
369] 
372] 
369] 
372 
369 
372] 
369 
372 
369 
372 
369] 
372] 
369] 
372 


371] 





379 


381] 


383] 


384] 


Average time per layer: 


mnist 
mnist 
convi 
convi 
pooll 
pooll 
conv2 
conv2 
pool2 
pool2 
ipl 
ipl 
relul 
relul 
ip2 
ip2 
loss 


loss 


forward: 
backward: 
forward: 
backward: 
forward: 
backward: 
forward: 
backward: 
forward: 
backward: 
forward: 
backward: 
forward: 
backward: 
forward: 
backward: 
forward: 


backward: 


Average Forward pass: 


Average Backward pass: 


0.038 ms. 
0.00102 ms. 
5.45956 ms. 
2.69554 ms. 
5.42452 ms. 
2.11508 ms. 
8.9766 ms. 
19.0001 ms. 
3.19856 ms. 
1.66524 ms. 
0.93266 ms. 
1.64174 ms. 
0.04648 ms. 
0.06176 ms. 
0.07234 ms. 
0.18076 ms. 
0.04114 ms. 
0.00178 ms. 


24.2216 ms. 


27.3904 ms. 


Average Forward-Backward: 51.66 ms. 


Total Time: 


2583 ms. 


*** Benchmark ends *** 





利用 Caffe 的 计时 功能 ， 可 以 对 比 不 同 硬件 、 不 同 算 法 、 不 同 模型 的 处 理 耗 时 情况 ， 指 导 


运 维 工 程 师 、 算 法 工程 师 和 模型 设计 师 有 针对 性 地 进行 硬件 /算法 /模型 选 型 和 评估 。 
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262 深度 学 习 : 21 天 实战 Caffe 
15.2 Caffe GPU 加速 模式 


直 白 点 说 , 本 节 将 介绍 的 GPU 就 是 电脑 上 的 显卡 , 打 游 戏 时 画面 卡 顿 往往 与 显卡 性 能 有 关 。 
提高 电脑 显卡 配置 可 以 提升 游戏 体验 ， 但 代价 是 需要 大 功率 的 电源 和 散热 系统 。 读 者 可 选择 租 
用 GPU 云 服 务 器 (如 阿里 云 HPC, https://www.aliyun.com/product/hpe) 来 满足 本 节 使 用 GPU 
加 速 Caffe 的 需求 。 


15.2.1 GPU 是 什么 


从 1965 年 开始 , 计算 机 和 处 理 器 一 直 按 照 摩尔 定律 不 断 提 高 性 能 ， 其 中 主 频 的 提升 发 挥 了 
主要 作用 。 而 2004 年 左右 , 晶体 管 的 功 耗 问题 成 为 主要 瓶颈 ,难以 支撑 更 高 的 主 频 。 与 此 同时 ， 
多 核 处 理 器 应 运 而 生 ， 延 续 了 摩尔 定律 。 为 了 充分 利用 CPU 的 计算 资源 ， 越 来 越 多 的 算法 被 重 
新 设计 成 并 行 结构 ， 以 适应 多 核 CPU 的 架构 。 


GPU (Graphics Processing Unit) 即 图形 处 理 器 ， 主 要 承担 2D 或 3D 图 形 处 理 任务 ， 最 初 
用 作 纹 理 映射 和 多 边 形 着 色 等 基本 计算 机 图 形 任务 。 近 年 的 GPU 拥有 可 编程 着 色 器 ， 能 够 协助 
CPU 完成 过 采样 、 插 值 、 色 彩 空间 变换 等 计算 任务 。GPU IFTE, APRA EAE, 4E 
阵 计算 功能 。 


图 15-1 显示 了 2002 年 以 来 Intel CPU 与 NVIDIA GPU 计算 能 力 的 发 展 情况 。 


Theoretical GFLOP/s 


5000 comme VIDA GPU Single Precision 
mH VIDIA OPU Double Precision / 
4750 

4500 intel CPU Double Precision 4 
4250 amtmmintel CPU Single Precision / 











O ptm Mioormf seid Westmere 
| Apr-01 Sep.02 Jan-04 May-05 Oct-06 Feb-08 us Now-10 Apr-12 Aug-13 Dec-14 





图 15-1 CPU 和 GPU 浮 点 姓 理 能力 対比 上 
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从 图 15-1 看 出 ，GPU 的 计算 能 力 发 展 速 度 远 远 超过 了 同时 期 的 CPU， 一 些 并 行 计算 任务 
在 GPU 上 可 以 获得 显著 加 速 。 图 15-2 显示 了 部 分 NVIDIA GPU 型 号 。 


| : ーー 
| ONE ARCHITECTURE — END-TO-END Al 











Tesla 
for Cloud 














图 15-2 NVIDIA 的 不同 型 号 GPU 


JB, Tesla 系列 GPU 适用 于 云端 部 署 ， 具 有 较 高 的 稳定 性 和 可 靠 性 ;， Titan X 为 消费 级 显 
卡 ， 性 价 比 高 ， 适 合 PC 上 使用 , Jetson 系列 GPU 适合 嵌入 式 应 用 。 


更 多 GPU 信息 ， 请 参考 NVIDIA 官网 。 
15.2.2 CUDA 是 什么 


CUDA (Compute Unified Device Architecture) 是 由 NVIDIA 在 2006 年 推出 的 一 套 针 对 异 
构 计 算 资 源 ( 说 白 了 就 是 Intel CPU + 自家 GPU ) 下 的 大 规模 并 行 计算 的 架构 ,包括 编译 器 (nvcc)、 
开发 工具 、 运 行 时 库 和 驱动 等 模块 ， 是 当今 最 流行 的 GPU 编程 环境 。 


在 CUDA 之 前 ， 一些 极 客 使 用 计算 机 图 形 学 语言 (Open GL, Shader 语言 ) 实现 算法 并 在 
GPU 上 运行 ， 普 通用 户 难以 掌握 其 高 超 的 技巧 。 


CUDA 语法 和 C 语言 高 度 相似 ， 大 大 降低 了 GPU 编程 门槛 。 

与 CUDA 同时 期 的 还 有 Open CL 语言 标准 , 支持 CPU/GPU/FPGA/DSP/ASIC 等 异 构 平台 ， 
但 相应 软件 工具 发 展 缓慢 ， 存 在 效率 不 高 、 软 件 库 缺失 等 问题 ， 期 待 不 久 的 将 来 有 大 的 进步 。 
15.2.3 GPU, CUDA 和 深度 学 习 


我 们 从 第 2 天 就 了 解 到 , 深度 学 习 无 论 是 CNN/DNN/RNN, 算法 均 涉 及 大 量 和 矩阵 -向 量 乘 运 
算 ， 具 有 内 在 并 行 性 ， 适 合 在 GPU 上 实现 。 
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幸运 的 是 ， 我 们 不 需要 手动 编写 CUDA 代码 ， 而 是 直接 利用 CUDA 中 提供 的 cuBLAS 软 
件 库 ， 其 作用 相当 于 CPU 上 的 OpenBLAS/MKL 计算 库 。 


更 幸运 的 是 , NVIDIA 从 2014 年 开始 推出 了 面向 深度 学 习 的 专用 加 速 库 cuDNNPI， 至 今 已 


有 5 个 版 本 ， 支 持 常 见 的 深度 学 习 计 算 类 型 〈( 卷 积 、 下 采样 、 非 线性 、Softmax )。 图 15-3 显示 
了 NVIDIA 为 深度 学 习 用 户 提 供 的 全 套 钦 硬件 解決 方 案 。 


CUDA for Deep Learning Development 






“amazon Ell Microsoft Anite 
IM aaa 








Kli5-3 ” NVIDIA 适用 于 深度 学 习 的 软 硬 件 解决 方案 


从 图 15-3 中 可 见 , 软件 包括 深度 学 习 SDK (DIGITS, cuDNN, cuSPARSE, cuBLAS, NCCL), 
而 硬件 则 可 选择 消费 级 器 件 CTitan X), 专业 硬件 系统 (DEVBOX) 或 者 云 上 的 解决 方案 CAWS, 
Azure, IBM SoftLayer、 阿 里 云 HPC, https://www.aliyun.com/product/hpe )。 


深度 学 习 社 区 也 开发 了 特定 GPU 架构 上 的 CNN/DNN 实现 , 如 cuda-convnet2P!, max DNNU!, 
Caffe 源码 中 所 有 *.cu 文件 均 使用 CUDA 及 其 软件 库 编 写 ， 而且 与 CPU 代码 一 一 对 照 ， 通 过 这 
些 代码 可 以 让 读者 快速 学 习 基 于 CUDA 的 GPU 编程 方法 。 


15.2.4 Caffe GPU 环境 准备 


为 了 让 Caffe 支持 GPU 模式 ， 需 要 安装 GPU 驱动 和 CUDA Toolkit， 请 新 手 尽 量 不 要 看 网 
上 的 各 种 教程 ， 而 是 直接 阅读 NVIDIA 官方 安装 手册 NVIDIA CUDA Installation Guide For 
Linux/Mac OS X/WindowsP!, ix f£ nf LAD RRS. 


使 用 阿里 云 HPC 物理 机 ， 交 付 时 已 安装 GPU 驱动 352.79 和 CUDA Toolkit 7.5， 安 闭路 径 
HJ ER iA Ft 15 /usr/local/cuda/ ， 其 中 用 于 编译 GPU CUDA 代码 的 编译 器 nvee 位 于 
/usr/local/cuda/bin/nvcc. 如 果 读 者 是 CUDA 初学 者 , 建议 首先 从 /usr/local/cuda/samples 开始 学 习 
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如 何 编译 和 运行 GPU (C1. ACBL INI. ASE. CUDA 入 门 资料 亦 可 参考 笔者 2012 年 
的 博客 ”。 
1， 验 证 驱动 安装 成 功 


在 命令 行 执 行 NVIDIA AE 
eT et. GPS 15-4 所 示 





UE PHELUm nvidia-smi, H AEI GPU 设备 和 驱动 以 及 占用 





j| nvidio-smi 
ri jen R 00:28:20 21h 


トー 
| 
| 
| 
| 
| 
| 
| 





[815-4 Linux Fnvidia-smi 诈 情 


该 命令 十 分 强大 ， 可 以 控制 GPU 超频 ， 监 控 GPU 运行 信息 ， 感 兴趣 的 读者 可 以 运行 


人 


“nvidia-smi hh” 获 得 详细 命令 清单 


ex 


ft Windows 下 NVSMI CHERUNLA C:\Program Files\NVIDIA Corporation\NVSMI\ 
nvidia-smi.exe, 1677 8! WIA] 15-5 所 示 。 


C\Windows\system32\cmd.exe 
PID pm Process name 
948 c -baf EA HER, Mos \ waffe.exe 21i 1 
27 19:37:18 2016 ; 
SMHI 254.78 Driver Version: 35 


TGCAUDDM 1 Bus—td f Volatile Uncorr 
Pur zlisadt 1 lem GPU-Util Compute 


a ma 1 
Pa 01M z 2500 了 7 d1519HMiB | 
a Maa T MAAN:8T AA. TF Off 1 

E ELLE 11519MiB | 


GPU Henory | 
PID Type Process name Usage 


948 í - Scal Ee-nas ter Bui 1d fi d «Release caffe exe 21 





K|I5-8 Windows Fnvidia-smilfE Ti 
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验证 CUDA 安装 成 功 


我 们 这 里 运行 一 个 cuBLAS 例 程 来 验证 CUDA 环境 安装 正常 。 注 意 需要 root 权限 。 首 先进 
入 例 程 所 在 目录 : 


# cd /usr/local/cuda/samples/7 CUDALibraries/batchCUBLAS/ 




















查看 当前 目录 下 文件 : 


# ls 
batchCUBLAS.cpp batchCUBLAS.h Makefile NsightEclipse.xml readme.txt 


该 例 程 提供 了 Makefile， 可 以 直接 运行 make 编译 : 


# make 


/usr/local/cuda-7.5/bin/nvcc  -ccbin g++  -I../../common/inc -m64 -gencode 
arch-compute 52,code-sm 52 -gencode arch-compute 52,code-compute 52 -o batchCUBLAS.o -c 
batchCUBLAS.cpp 


/usr/local/cuda-7.5/bin/nvcc -ccbin g++  -m64 -gencode arch-compute 52,code-sm 52 
-gencode arch-compute 52,code-compute 52 -o batchCUBLAS batchCUBLAS.o -lcublas 


mkdir -p ../../bin/x86 64/linux/release 
cp batchCUBLAS ../../bin/x86 64/linux/release 


可 以 看 到 编译 该 例 程 时 命令 行 调用 了 nvcc 编译 器 (默认 路 径 为 /ust/local/cuda-7.5/bin/nvee)， 
读者 可 以 通过 阅读 文档 中 学 习 其 命令 行 参数 的 具体 意义 。 再 次 查看 当前 目录 下 文件 ， 发 现 可 执 
行文 件 batchCUBLAS: 








# 1s 


batchCUBLAS batchCUBLAS.cpp batchCUBLAS.h batchCUBLAS.o Makefile NsightEclipse.xml 
readme.txt 





这 是 一 个 利用 cuBLAS 实现 矩阵 乘 计算 的 例 程 ， 我 们 这 样 运行 : 


# ./batchCUBLAS -m4096 -n4096 -k4096 





batchCUBLAS Starting... 

GPU Device 0: "Tesla M40" with compute capability 5.2 

--— Running single kernels ==== 

Testing sgemm 

iHHHE args: ta=0 tb-0 m=4096 n-4096 k-4096 alpha = (0xbf800000, -1) beta- (0x40000000, 2) 
#### args: 1da=4096 1db-4096 1dc-4096 

^^^^ elapsed = 0.02335501 sec GFLOPS-5884.77 

@@@@ sgemm test OK 


Testing dgemm 
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HHHR args: ta=0 tb-0 m-4096 n-4096 k-4096 alpha = (0x0000000000000000, 0) beta= 
(0x0000000000000000, 0) 


#### args: 1da=4096 ldb=4096 ldc=4096 
^^^^ elapsed = 0.75175285 sec GFLOPS=182.825 
@@@@ dgemm test OK 


==== Running N=10 without streams ==== 


Testing sgemm 


#### args: ta=0 tb-0 m-4096 n-4096 k=4096 alpha = (0xbf800000, -1) beta= (0x00000000, 
0) 


#### args: lda-4096 ldb-24096 1dc-4096 

^^^^ elapsed = 0.23523593 sec GFLOPS-5842.6 

@@@@ sgemm test OK 

Testing dgemm 

#### args: ta=0 tb=0 m=4096 n=4096 k=4096 alpha = (Oxbff0000000000000, -1) beta= 
(0x0000000000000000, 0) 

#### args: lda-4096 ldb=4096 1dc-4096 

^^^^ elapsed = 7.52091789 sec GFLOPS-182.742 

@@@@ dgemm test OK 


==== Running N-10 with streams ==== 


Testing sgemm 

#### args: ta-0 tb-0 m-4096 n=4096 k-4096 alpha = (0x40000000, 2) beta- (0x40000000, 2). 
#### args: 1da=4096 ldb=4096 1dc-4096 

^^^^ elapsed - 0.23394394 sec GFLOPS-5874.87 

@@@@ sgemm test OK 

Testing dgemm 


#### args: ta=0 tb=0 m-4096 n-4096 k=4096 alpha = (0xbff0000000000000, -1) beta= 
(0x0000000000000000, 0) 


#### args: 1da=4096 1db-4096 1dc=4096 
^^^^ elapsed = 7.50513196 sec GFLOPS-183.127 
@@@@ dgemm test OK 


==== Running N-10 batched ==== 


Testing sgemm 
#### args: ta=0 tb-0 m=4096 n=4096 k=4096 alpha = (0x3f£800000, 1) beta= (0xbf800000, -1) 
#### args: lda-4096 ldb=4096 1dc-4096 
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^^^^ elapsed = 0.59359002 sec GFLOPS-2315.39 

CARA sgemm test OK 

Testing dgemm 

###+ args: ta=0 tb-0 m-4096 n-4096 k-4096 alpha = (Uxbff0000000000000, -1) beta- 
(Ox4000000000000000, 2) 


#### args: lda=4096 ldb=4096 ldc-409€ 


スス スム 


elapsed = 8.48584008 sec GFLOPS=161.963 
@@@@ dgemm test OK 


Test Summary 
0 error(s) 

如 果 运 行 结 果 如 上 所 示 ， 则 说 明 CUDA 环境 安装 正 第 ak DAD I 程 我 们 也 可 以 得 到 当前 
GPU (这 里 是 Tesla M40, Bil z; HPC G4 实例 ) 的 計算 能 方 , 通过 多 种 Kernel 模式 ( 单 Kernel, 
无 Stream, fj Stream, Batch 模式 ) 测试 了 SGEMM、DGEMM M CHD2S/SUR HEAR EERE) 的 计算 
性 能 。 测 试 结论 为 双 精 度 计算 能 力 约 为 单 精度 的 1132， 与 NVIDIA 官方 数据 一 致 钻 。 


15.2.5 切换 到 Caffe GPU 加速 模式 


Caffe 从 CPU 模式 切换 到 GPU folie PTE Makefile.config 中 的 选项 : 
+ (CPU 模式 开关 ， 这 里 要 使 用 GEDU 模式， 所 以 加 上 上 
# CPU ONLY := 1 
保存 ， 退 出 。 HORA DS. d y: 
$ make clean 
$ make -j 


细心 的 读者 会 发 现 ， 这 次 编译 调用 了 nvec Ai PE Caffe 中 的 .CUDA 代码 (*.cu)。 


而 在 Windows 下 需要 修改 CommonSettings.props， 修 改 基 中 三 项 内 容 如 下 : 


<CpuOnlyBuild>false</CpuOnlyBuild> 
<UseCuDNN>false</UseCuDNN> 
<CuDnnPath></CuDnnPath> 


等 待 编 译 成 功 。 再 次 运行 MNIST 例 程 ， 运行 前 需要 将 训练 超 参 数 文件 examples/mnist/ 
lenet solver.prototxt 中 最 后 一 项 solver mode 改 为 GPU: 


# solver mode: CPU or GPU 
solver mode: GPU 
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也 可 以 在 命令 行 显 式 加 入 选项 “-gpu 0", 表示 在 0 号 
速 模式 下 运行 训练 的 效果 与 在 CPU 模式 下 没有 区 別 , 
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下 面 仍 然 以 MNIST 例 程 中 的 LeNet-5 


$ ./build/tools/caffe.bin time -model examples/mnist/lenet train test.prototxt -gpu 0 
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10406 250: 
I0406 11:50: 
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I0406 11:50:1 
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10406 250:1 
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I0406 :0 :1 
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异型 为 例 


:383] Total Time: 








3 GPU 设备 上 运行 
这 里 不 再 贴 出 。 


Caffe。 在 GPU 加 


;使 用 caffe time 命令 对 GPU 模式 进行 计时 


mnist forward: 


mnist backward: 


convl forward: 


convl backward: 


pooll forward: 


pooll backward: 


conv2 forward: 


conv2 backward: 


pool2 forward: 


pool2 backward: 


ipl forward: 


ipl backward: 


relul forward: 


relul backward: 


ip2 forward: 


ip2 backward: 


loss forward: 


loss backward: 


:366] Average time per layer: 
2369 
2372 
:369 
5332 


0.0517702 ms. 
0.00244352 ms. 
2.86531 ms. 
7.57237 ms. 
0.0566336 ms. 
0.19289 ms. 
5.86639 ms. 
7,319859 ms, 
0.0279994 ms. 
0.073769 ms. 
0.163592 ms. 
0.186503 ms. 
0.0140166 ms. 
0.0140288 ms. 
0.114454 ms. 
0.0673651 ms. 
0.175297 ms. 
0.0324992 ms. 


:377] Average Forward pass: 9.44298 ms. 

:379] Average Backward pass: 15.626 ms. 

:381] Average Forward-Backward: 25.1487 ms., 
1257.43 ms. 


384] *** Benchmark ends *** 


实现 的 算法 对 GPU 资源 利用 率 不 高 ,加 速效 果 不 明显 





H GPU 模式 将 显著 提升 性 能 。 





15.3 Caffe cuDNN 加速 模式 


的 结果 对 比 , 发 现 GPU 模式 相 比 CPU 模式 速度 加 快 了 1 借 。 由 十 MNIST 


。 对 于 更 大 的 模型 (VGG-16 


为 了 达到 更 高 的 性 能 ,我们 可 以 借助 专业 加 速 库 cuDNN。 本 节 我 们 会 学 习 如 何 使 用 该 加 速 
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库 提 升 Caffe 计算 速度 。 
15.3.1 获取 cuDNN 


默认 的 CUDA 安装 包 不 包括 cuDNN， 读 者 需要 通过 网 站 外 首先 注册 为 CUDA 开发 者 才能 
获得 下 载 权限 ， 本 文 写 作 时 最 新 版 为 V5， 读 者 可 以 选择 与 自己 的 Caffe 版 本 、CUDA 版 本 对 应 
的 cuDNN， 推 荐 ， CUDA 7.5 + cuDNN v3 + Caffe 20160303， 这 也 是 阿里 云 HPC 上 稳定 的 运行 
版 本 0。 如 果 读 者 执意 党 新 ， 可 以 参阅 参考 资料 [1 了 解 如 何 填 坑 。 图 15-6 给 出 了 不 同 版 本 
cuDNN、 不 同 GPU 上 的 性 能 。 

















Caffe Performance 
| 
| 6 
| MAO*cuDNN4 
| 5 nw 
| NM40+cuDNN3 
E 4 
E 4 
o 
$ 2 
K40*cuDNN1 
K40 
m BN 
11/2013 9/2014 7/2015 12/2015 





115-6 ”历代 cuDNN 性 能 变化 
15.3.2 切换 到 Caffe cuDNN 加速 模式 


Caffe 从 GPU 模式 切换 到 cuDNN 模式 非常 简单 ， 只 需 修 改 Makefile.config 中 的 选项 : 


# cuDNN 加 速 开关 ， 这 里 要 使 用 cupNN， 所 以 打开 (去 掉 前 面 的 “#”) 该 开关 
USE CUDNN := 1 





保存 ， 退 出 。 重 新 编译 整个 工程 ， 命 令 为 : 
$ make clean 


$ make -j 
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在 Windows 下 开启 cuDNN 加 速 选项 , 需要 修改 CommonSettings.props 中 的 三 項 内 容 如 下 : 


<CpuOnlyBuild>false</CpuOnlyBuild> 
<UseCuDNN>true</UseCuDNN> 
<CuDnnPath>C: \Users\Administrator\Desktop\</CuDnnPath> 


再 次 运行 MNIST 例 程 ， 并 使 用 caffe time 命令 计时 : 


$ ./build/tools/caffe.bin time -model examples/mnist/lenet train test.prototxt 








-gpu 0 


T0406 11:47:29.436899 12103 caffe.cpp:366] Average time per layer: 

I0406 11:47:29.436913 12103 caffe.cpp:369] mnist forward: 0.0527168 ms. 
I0406 11:47:29.436947 12103 caffe.cpp:372] mnist backward: 0.00264768 ms. 
I0406 11:47:29.436966 12103 caffe.cpp:369 convl forward: 0.204704 ms. 
I0406 11:47:29.436988 12103 caffe.cpp:372] convl backward: 0.450452 ms. 
I0406 11:47:29.437011 12103 caffe.cpp:369 pooll forward: 0.0553888 ms. 
I0406 11:47:29.437033 12103 caffe.cpp:372 pooll backward: 0.192976 ms. 
I0406 11:47:29.437062 12103 caffe.cpp:369 conv2 forward: 0.348137 ms. 
I0406 11:47:29.437088 12103 caffe.cpp:372 conv2 backward: 0.884436 ms. 
I0406 11:47:29.437104 12103 caffe.cpp:369 ・ pool2 forward: 0.0271654 ms. 
I0406 11:47:29.437125 12103 caffe.cpp:372] pool2 backward: 0.0740122 ms. 
I0406 11:47:29.437149 12103 caffe.cpp:369] ipl forward: 0.167491 ms. 
I0406 11:47:29.437170 12103 caffe.cpp:372] ipl backward: 0.188005 ms. 
I0406 11:47:29.437191 12103 caffe.cpp:369] relul forward: 0.024487 ms. 
I0406 11:47:29.437212 12103 caffe.cpp:372] relul backward: 0.0188403 ms. 
I0406 11:47:29.437235 12103 caffe.cpp:369] ip2 forward: 0.118394 ms. 
I0406 11:47:29.437260 12103 caffe.cpp:372] ip2 backward: 0.0677133 ms. 
I0406 11:47:29.437281 12103 caffe.cpp:369] loss forward: 0.146736 ms. 
I0406 11:47:29.437302 12103 caffe.cpp:372] loss backward: 0.0336544 ms. 
I0406 11:47:29.437337 12103 caffe.cpp:377] Average Forward pass: 1.25336 ms. 
I0406 11:47:29.437356 12103 caffe.cpp:379] Average Backward pass: 2.01538 ms. 


I0406 11:47:29.437378 
I0406 11:47:29.437399 
I0406 11:47:29.437417 


12103 caffe.cpp:381] 
12103 caffe.cpp:383] 
12103 caffe.cpp:384] 


Average Forward-Backward: 3.35128 ms. 


Total Time: 167.564 ms. 


*** Benchmark ends *** 


从 上 面 结果 可 以 看 出 ，Caffe cuDNN 模式 相 比 CPU 模式 加速 15.46 倍 , 相 比 GPU 模式 加速 
7.7 倍 ， 效 果 惊 人 。 
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15.3.3 Caffe 不 同 硬 件 配置 性 能 

前 面 一 直 使 用 MNIST 例 程 ， 模 型 和 数据 规模 都 比较 小 ， 作 为 性 能 指标 不 够 准确 地 反映 便 
件 性 能 。 这 里 我 们 测试 CaffeNet (Caffe 参考 ImageNet 模型 ) 在 不 同 NVIDIA GPU 上 的 性 能 0 。 

对 于 训练 ， 每 个 时 间 点 为 20 REAR RETRI 256 张 图 片 构成 的 minibatch， 总 共 5120 
张 图 片 ， 对 于 测试 ， 全 部 50000 张 验证 集 图 片 都 会 进行 分 类 。 

为 了 让 性 能 最 优 ， 建 议 关 掉 ECC， 开 启 最 大 时 钟 速率 。 尽 管 ECC 在 速度 上 会 引入 可 忽略 
的 差异 ， 但 关 掉 它 可 以 节省 将 近 1GB 的 GPU 存储 器 。 


在 关闭 ECC. 最 大 时 钟 速 率 的 最 佳 设 置 下 , 标准 Caffe 可 以 达到 如 下 性 能 ， 如 表 15-1 所 示 。 
表 15-1 在 关闭 ECC、 最 大 时 钟 速率 的 最 佳 设置 下 标准 Caffe 性 能 














NVIDIA K80 Caffe Caffe + cuDNN 
训练 193.2 images/s _ 266.67 images/s 


预测 500 images/s 823.72 images/s 














NVIDIA K20 Caffe | Caffe + cuDNN 


142.2 images/s - 





预测 376 images/s 











NVIDIA Titan Caffe Caffe * cuDNN 











ji 
195 images/s 253 images/s 





500 images/s ・ 754.1 images/s 








Caffe Caffe + cuDNN 





训练 155.2 images/s 210.7 images/s 











6 T 
测试 387.6 images/s 480.7 images/s 





下 面 介绍 一 下 K40 配置 技巧 。 
为 了 让 K40 达到 最 高 性 能 ， 需 要 关 掉 ECC 并 使 能 boost 时 钟 速率 (风险 需要 自己 承担 )。 
关闭 ECC 的 方法 : 


sudo nvidia-smi -i 0 --ecc-config-0 + 对 每 个 GPU 重复 -i x 
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a fi. Bey GPU 模式 为 persistence: 
sudo nvidia-smi -pm 1 
BI PES: 
sudo nvidia-smi -i 0 -ac 3004,875 # 对 每 个 SEU 重复 -i x 
请 注意 这 个 设置 ， 每 当 驱 动 重新 加 载 /重启 时 都 会 复位 。 在 Ubuntu 系统 中 将 上 述 命令 写 入 


/etc/rc.local 。 


15.4 ”练习 题 

1. 对比 阅读 conv layercpp. conv layercu、cudnn conv layer.cpp 和 cudnn conv layer.cu, 
体会 同一 算法 的 不 同 实 现 方式 。 

2. AWA i] GPU WEJ (Fermi, Kepler, Maxwell, Pascal) 的 技术 细节 。 


3. 为 什么 Caffe 只 击 很 少 的 工作 量 就 能 运行 在 CPU. GPU. cuDNN 模式 下 ? 如 何 设计 类 
(AHERE? 


4. 如 何在 Caffe 中 增加 新 便 件 平台 (例如 Xeon Phi, FPGA) 支持 ? 


15.5 参考 資料 


[1] NVIDIA CUDA C PROGRAMMING GUIDE v7.5 
[2] https://developer.nvidia.com/cudnn 
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[4] maxDNN: An Efficient Convolution Kernel for Deep Learning with Maxwell GPUs, 
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第 10 x 
Caffe 可 视 化 万 法 


今天 的 内 容 是 对 第 14 天 内 容 的 进一步 延伸 , 将 一 些 工具 需求 具体 化 为 可 视 化 。 可视化 对 于 
调 参 非常 关键 ,一 些 网 络 设计 灵感 往往 来 源 于 可 视 化 的 结果 ,“ 艺术 ”与 “科学 ”往往 能 在 高 维 
空间 互通 有 无 。 


在 很 长 一 段 时 期 内 ， 学 术 界 普遍 认为 神经 网 络 中 学 习 到 的 特征 不 好 解释 ， 而 一 些 研究 者 则 
通过 可 视 化 方法 理解 卷 积 神经 网 络 趾 ， 针 对 上 述 质疑 进行 了 有 力 回击 。 今 天 我 们 来 欣赏 一 下 这 
些 由 机 器 学 到 的 作品 。 


16.31 数据 可 视 化 


我 们 前 面 使 用 Caffe 进行 图 像 分 类 ， 所 有 数据 在 预 处 理 时 都 经 历 了 从 图 像 数 据 〈 二 进 制 图 
像 文件 加 MNIST/CIFAR10、 图 片 格式 文件 JPEG/PNG) 到 Caffe 数据 库 (LMDB/LEVELDB ) 
的 转换 ， 这 样 做 可 以 提高 数据 VO 速率 ， 但 代价 是 ， 开 发 者 无 法 直观 看 到 数据 。 


为 了 获得 最 佳 体 验 ， 建 议 读者 安装 Matlab R2014 以 上 版 本 软件 (自行 寻找 资源 ， 你 们 
懂 的 )。 


本 节 对 数据 可 视 化 过 程 ， 不 依赖 Caffe 环境 ， 可 以 在 任意 位 置 运行 代码 。 
16.1.1 MNIST 数据 可 视 化 


MNIST 数据 可 视 化 效果 如 图 16-1 所 示 。 


ww ai bbt. com DODOODDOOD 


276 深度 学 习 : 21 天 实战 Caffe 


E. B. B- Ne Se Be N- 


~ 


s. m 


四 ~ 


2 1 o 4 1 4 9 5 9 
B 四 n 回 四 回 回 B 7 
6 9 o 1 5 3 7 3 a 
回 E n n [5] 9 [2] Bg a 
6 6 5 4 o 7 a 0 1 
6 Bü G 加 5E a 4 D a 
1 3 4 7 2 7 1 2 ュ 
u B 回 [7] B u u B n 
7 a 2 3 5 1 2 4 4 
a n B B a 回 B "n 回 
3 5 5 6 o 4 1 3 5 
B B B m 回 E 四 E B 
8 8 3 7 4 6 4 3 o 
E H E B B Bg 4 H E 
0 2 9 1 7 3 2 9 7 
回 E a ou 3 Bü a ? HE 
5 2 ? a 4 7 3 6 1 
n B uu B8 四 n Bg 四 四 
6 9 3 1 4 1 7 6 9 
B し | H 四 4 B B 回 





图 16-1 MNIST 数 据 可 视 化 效果 


Matlab 代码 (show_mnist_data.m， 可 以 放 在 SCAFFE ROOT/data/mnist/ 下 


MNIST 数据 


` 


AG 


image file name 


index file name 


fidl — fopen(image file name, 


- 件 的 目录 下 运行 ) 如 下 : 


'tlOk-images-idx3-ubyte'; 


'tlOk-labels-idxi-ubyte'; 


"rb'); 


fid2 - fopen(index file name,'rb'); 


= fread(fidl,'uint8'); 


fclose(fidl); 


fclose(fid2); 


images data = images data(17:end); 


index data 


index data (9:end); 


100: 
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， 或 者 其 他 包含 
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figure (100); 
for t = 1:100 


image buffer = reshape(images data((k + t -2)* 28 * 28 +1: (k +t- 1) * 28 * 
28), 28, 28); 


subplot(10, 10, t); 
imshow(uint8 (image buffer)'); 
title(num2str(index data(k + t - 1))); 
end 
pause; 


end 


16.1.2 CIFAR10 数据 可 视 化 


CIFARIO 数据 可 视 化 效果 如 图 16-2 所 示 。 











frog truck truck deer automobile automobile bird horse ship cat 
| a a a x m ii 
deer horse horse bird truck truck truck cat bird frog 
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deer cat frog frog bird frog cat dog deer airplane 
EI " m a a ピコ 

| 

| airplane truck automobile cat deer airplane cat horse cat cat 
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dog bird bird horse automobile automobile automobile bird bird airplane 
i ite @ Lad a Lj a T w 
truck dog horse truck bird bird dog bird deer cat 
| 」 a = L4 5 a m a u a 

jutemobile automobile ship bird automobile automobile deer truck horse ship 
EI K B z * “ a a 
dog truck frog horse cat automobile truck airplane cat automobile 
a a * a © a 5 m a E 
cat dog deer dog horse horse deer horse truck. deer 
w » E L3 z L| m a m a 
bird cat ship airplane automobile frog automobile automobile deer automobile 
a | | m に | ia e a に | E 





图 16-2 CIFARIO 数据 可 视 化 效果 


Matlab 代码 (show_cifar10_data.m， 可 以 放 在 $8CAFFE_ROOT/data/cifar10/ 下 ， 或 者 其 他 包 
& CIFARIO 数据 的 目录 下 运行 ) 如 下 ; 


clear; 

clc; 

close all; 

strings = [ 
'airplane' 
'automobile' 
‘bird' 
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'cat' 

"deer' 

‘dog! 

frog" 

'horse 

'ship' 

'truck' 

n 

image file name = 


fidl = 


'data batch 1.bin'; 
fopen(image file name,'rb'); 
images data = fread(fidl,'uint8'); 
fclose(fidl); 
images data = reshape(images data,3073,[])'; 
image idx = 


images data(:,1); 


for k= 1: 100 : size(images data,1) 


figure(100); 


for t = 1 : 100 
image r = reshape(images data(k + t - 1, 
image g = reshape (images _data (k tt- L, 
image b = reshape(images data(k * t - 1, 


image buffer = 

subplot(10, 10, t); 
imshow(uint8 (image buffer)); 
title(strings(image idx(k + t = 1)*1]); 

end 

input('Press Enter to next picture :'); 

pause; 


end 


16.1.3 ImageNet 数据 可 视 化 


ImageNet 数据 集 本 身 就 是 以 图 片 形式 提供 的 ,利用 操作 系统 自 带 的 图 片 浏览 


不 过 这 样 一 张 张 看 他 她 或 它 ) 们 的 照片 未 免 单 调 。 


2 : 1025), 32, 
1026 : 2049), 
2050 : 3073), 


[1)'; 
32, [])': 
32, tI": 


cat(3, image r, image g, image b); 


就 可 以 显示 。 


斯 坦 福 大 学 的 博士 生 Andrej Karpathy 使 用 


Caffe 提取 50000 紅 ILSVRC 2012 验证 集 图 像 的 fc7 特征 (4096 维 向 量 )， 然 后 使 用 Barnes-Hut 
t-SNE 得 到 与 L2 FEA KIN HERA, Ws 16-3 所 示 。 
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图 16-3 ”利用 FSNE 生 成 的 二 维 先 入 图 


在 上 面 的 二 维 嵌 入 图 中 ， 相 似 度 高 〈 二 者 fc7 特征 向 量 距 离 短 ) 的 两 张 图 片 会 放置 得 比较 近 。 








有 兴趣 的 读者 , 可 以 结合 14.2 节 使 用 Caffe 做 特征 提取 的 内 容 并 参考 t-SNE 文档 中 尝试 一 下 。 








通过 数据 可 视 化 ， 可 以 让 设计 者 快速 熟悉 数据 ， 并 根据 数据 特点 设计 模型 ， 有 助 于 调试 算 
法 、 提 纯 数 据 。 数 据 是 深度 学 习 最 重要 的 信息 源 ， 获 取 高 质量 的 数据 往往 比 设计 复杂 的 模型 更 
有 效 。 





16.2 ”模型 可 视 化 





前 面 我 们 训练 模型 ， 只 看 到 一 扒 运 行 日 志 ， 缺 乏 直观 的 可 视 化 结果 ， 到 底 “ 好 ”的 模型 长 
什么 样子 呢 ? 


16.2.1 网 络 结构 可 视 化 


Caffe 提供 了 基于 Python 的 网 络 结构 可 视 化 工具 ， 需 要 编译 pycaffe 后 使 用 。 为 此 ， 我 们 借 
此 机 会 学 习 pycaffe 的 编译 和 使 用 。 为 了 尽量 简短 ， 本 节 只 介绍 Ubuntu 14.04. 下 的 安装 方法 ， 其 
他 系统 请 根据 实际 情况 调整 。 


准备 Python 环境 


sudo apt-get update 


Xr 


in 


sudo apt-get install python-pip python-dev python-numpy 
sudo apt-get install gfortran 


sudo pip install -r ${CAFFE_ROOT}/python/requirements.txt 


dm x» ur 


sudo pip install pydot 
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2. 编译 pycaffe 


ed ${CAFFE ROOT} 
make clean 


make -j 


Xn Xm» do Xn 


make pycaffe 


3， 绘 制 网 络 结构 图 - 


cd $(CAFFE ROOT)/python 


python draw net.py ../models/bvic reference caffenet/train val.prototxt caffenet.png 


$ 
$ 
$ python draw net.py ../models/bvlc aleéxnet/train val.prototxt alexnet.png 
$ python draw net.py ../models/bvlc googlenet/train val.prototxt googlenet.png 
S python draw net.py ../models/bvlc reference rcnn ilsvrcl3/deploy.prototxt rcnn.png 
$ python draw net.py ../examples/mnist/lenet train test.prototxt lenet5.png 
| $ python draw net.py ../examples/mnist/mnist autoencoder.prototxt mnist ae.png 


$ python draw net.py ../examples/cifarlO0/cifarlO0 full sigmoid train test bn.prototxt 
cifar10 full sigmoid bn.png 





4. 梓 例 展示 





LeNet-5， 模 型 结构 如 图 16-4 所 示 。 

















图 16-4 LeNet.5 模 型 结构 图 


cifar10_full_ sigmoid_bn， 模 型 结构 如 图 16-5 所 示 。 
li Ck 








图 16-5 CIFARIO ð Full Sigmoid BN 模 型 结构 图 











bvlc reference_caffenet,prototxt， 模 型 结构 如 图 16-6 所 示 。 








^ cal as = *ow 
^8 - NM GG 


图 1 16-6 CaffeNet 模 型 结 " 图 








GoogLeNet， 模 型 结构 如 图 16-7 所 示 。 
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= s a g az 4-4 Hi 
PT ee 23% " - Š $5 2 8 = * x = y -— 
"-- Ww Poa M n 
nn = » a = = 
图 16-7 ”GoogLeNet 模 型 结构 图 
VGG=16， 模 型 结构 如 图 16-8 所 示 。 
pE B S # i z ; E. ~ 
pg m RE Boc ——— Boc m E 
_ so ee ® = m. P... oi 





图 16-8 VGG-16 模 型 结构 图 


通过 绘制 网 络 架 构 我 们 可 以 直观 地 看 到 一 个 网 络 的 整体 框 保 到 局 部 细节 。 在 设计 新 模型 结 
构 时 ， sh 可 视 化 工具 能 很 快 发 现 设计 缺陷 并 加 以 改正 ， 而 文本 描述 (*.prototxt〉 则 不 容易 发 
现 问 题 。 


16.2.2 网络 权 值 可 视 化 


判断 模型 优 劣 的 第 二 种 方法 是 对 训练 后 的 模型 权 值 进行 可 视 化 。 


通常 第 一 个 卷 积 层 是 最 容易 解释 的 ， 因 为 它 直 接 “ 看 ”原始 像素 。 其 他 更 高 层 的 滤波 器 权 
值 也 可 以 显示 。 训 练 过 的 CaffeNet 第 一 个 卷 积 层 滤波 器 可 视 化 效果 如 图 16-9 所 示 。 











图 16-9 CaffeNet Conv1 权 值 可 视 化 效果 





卷 积 层 权 值 可 视 化 十 分 有 用 ， 因 为 经 过 良好 训练 的 网 络 权 值 通常 表现 为 美观 、 光 滑 的 滤波 
We: 反之 ， 如 果 表 现 为 噪声 图 样 ， 则 可 能 意味 着 网 络 还 没有 经 过 足够 长 时 间 的 训练 ， 或 者 由 于 
eh ed 从 图 16-9 可 以 看 出 ，CaffeNet Conv1 权 值 非常 美观 、 平 
滑 ， 说 明 网 络 收敛 效果 不 错 。 另 外 ， wir ] 忆 观察 到 aa d up fox 是 取 高 频 灰 度 特征 ; 而 另 一 
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部 分 负责 提取 低频 彩色 特征 。 


用 于 显示 图 16-9 的 Matlab 代码 Cconvl weights vis.m, 放 在 Caffe 根 日 录 下 ， 需 要 预先 编 
译 matcaffe) W F: 


clear; 

clc; 

elose all; 
addpath('matlab') 
caffe.set mode cpu(); 
caffe.version() 


net = caffe.Net('models/bvlc reference caffenet/deploy.prototxt', 'models/bvlc | 


reference caffenet/bvlc reference caffenet.caffemodel', 'test'); 
net.layer names 
, net.blob names 
convl layer = net.layer vec(2); 
blobl = convl layer.params(1); 
w = blobl.get data(); 
size (w) 
W = zéros(l11 * 3, 11 * 9$); 
for ü = 1:3 
for v = 1:96 
WCL * (a - Ly) a (Lilt), IL * (^ —ly = whi, aw MM 
end 


end 


= W — min(min(W)); 
= W / (max(max(W))) * 255; 
= uint8(W); 


号 Š x S 
| 


= [W, zeros(size(W, 1), 4 * 11)1: 

WW = cat(3, W(1:11, :), W(12:22, :), W(23:33, :)); 
W = zeros(lU * 12, 10 * 12, 3); 

for u = 1:10 

for v = 1:10 


W((um-1)*12 + (1:11])5; (w —1) * 12 + (1:119, :) = Waits, (uü-1) * 11 * IQ + Ww - 1) 
+ LE ok ALLEY ge SF 


end 
end 
W = uint8(W); 


figure; imshow (W); 
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编译 matcaffe 比较 简单 ， 只 需 在 安装 Matlab 成 功 后 ， 将 Matlab 目录 更 新 至 Caffe 的 
Makefile.config: 


# This is required only if you will compile the matlab interface. 


# MATLAB directory should contain the mex binary in /bin. 





MATLAB DIR := /Your/Path/To/MATLAB/R2015b/ 
# MATLAB DIR := /Applications/MATLAB R2012b.app 


保 在 ， 退 出 ， 然 后 编译 : 


等 待 编译 结束 即 可 。 如 果 编 译 报错 ， 请 核对 Matlab 路 径 。 


我 们 需要 从 Caffe Model Zoo 获取 已 经 训练 好 的 CaffeNet 权 值 文件 , 这 样 就 不 需要 从 头 训练 
一 个 CaffeNet 模型 了 ， 节 省 了 时 间 和 计算 资源 。 获 取 方 式 如 下 : 


c J 


| cd models/bvlc reference caffenet/ 


$ wget http://dl.caffe.berkeleyvision.org/bvlc reference caffenet.caffemodel 


CaffeNet 更 高 层 的 权 值 可 视 化 效果 如 图 16-10 至 图 16-13 所 示 。 





图 16-10 CaffeNet Conv2 权 值 可 视 化 效果 (部 分 ) 
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图 16-11 CaffeNet Conv3 权 值 可 视 化 效果 (部 分 ) 





图 16-12 CaffeNet Conv4 权 值 可 视 化 效果 (部 分 ) 
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[816-13  CaffeNet Conv5 权 值 可 视 化 效果 (部 分 ) 


从 图 16-10 可 以 看 到 ，CaffeNet 第 二 个 卷 积 层 可 视 化 效果 虽然 不 像 第 一 层 那 样 具 有 较 强 的 
可 解释 性 ， 但 显然 仍然 光滑 、 形 状 规则 、 无 噪声 图 样 。 更 高 层 (Conv3、Conv4、ConvS) K 
不 大 ， 可 读 性 更 差 了 。 


Conv2-Conv5 权 值 可 视 化 的 Matlab 代码 (visualize weights.m， 放 于 Caffe fi Hae F) 如 下 : 








function [] = vi ualize weight s(w, 8) 
- 3 (w, " ize(w, )) K el る 
一 ; 15 r n Ke l e for etter effec 
malization f g 
W = ー min( ( (w) ) ) ) : 
w= AX (T ( (max(w)))) * 2 
w = uint8(w); 
= ex { i (Wy dy * Sl1Zeiw, 4)) 
for u = 1:si 3) 
for = 1 (w, 4) 
tg * ü = 1) ye ( 三 让 F ( )) = w(:,:,u,v)" 


end 
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end 
W = uint8(W); 


figure; imshow (W); 
Matlab 主 函 数 代码 (caffenet weights vism, WF Caffe JR ES FO 如 下 : 


clear; 

cle; 

close all; 

addpath ('matlab') 
caffe.set mode cpu(); 


fprintf (['Caffe Version = ', caffe.version(), '\n']); 


net ー caffe.Net('models/bvlc reference caffenet/deploy.prototxt', 'models/bvlc 
reference caffenet/bvlc reference caffenet.caffemodel', 'test'); 


fprintf('Load net done. Net layers : '); 


net.layer names 


fprintf('Net blobs : '); 
net.blob names 

% Convl Weight Visualization 
convl layer = net.layer vec(2); 
blobl = convl layer.params(1); 

w = blobl.get data(); 
fprintf('Convl Weight shape: '); 
size (w) 


visualize weights(w, 1); 


% Conv2 Weight Visualization 
conv2 layer - net.layer vec(6); 
blob2 = conv2 layer.params (1); 
w2 = blob2.get data(); 
fprintf('Conv2 Weight shape: '); 
size(w2) 

visualize weights(w2, 1); 

% Conv3 Weight Visualization 
conv3 layer - net.layer vec(10); 


blob3 - conv3 layer.params (1); 


ww ai bbt. con DOO0000 


第 16 天 Caffe 可 视 化 方法 








4 layer = net.lay 
- nv4 layer. 
lot get d 3 () 

ntf('Conv4 Weight 

(w4) 

ilize weiqhts(w4, 

layer = r y 

5 = conv5 layer.r 

Dl yet data() 

[^ Weight 
(w5) 

lalize weights(w5, 


下 面 列举 一 些 反例 





の 


D 


hape: 


1); 








c(14) 


oarams (1); 





; 


一 一 什么 样 的 权 值 是 “ 坏 ” 的 ? WE 16-14、 較 16-15, Él 16-16. 


图 16-14 图 案 类 似 噪声 
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图 16-15 ”图 案 相 关 性 大 


| iè を 本 と 
3a m I LUTD. INL 





图 16-16 图案 缺乏 结构 性 


16.3 ”特征 图 可 视 化 


我 们 在 前 两 节 阅 尽 了 数据 和 模型 ， 还 有 一 类 数据 没有 留意 ， 即 网 络 在 前 向 传播 阶段 的 各 层 
响应 。 下 面 我 们 对 每 层 响应 进行 可 视 化 。 
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使 用 可 视 化 可 以 很 容易 看 出 危险 的 错误 信号 ， 比 如 对 于 多 个 不 同 的 输入 ， 一 些 响应 特征 图 
全 为 零 ， 这 样 可 以 检测 “ 死 ” 滤 波 器 ， 可 能 是 学 习 速 率 过 高 的 症状 。 


使 用 一 个 训练 过 的 CaffeNet 模型 〈 仍 使 用 models/bylc reference caffenet/bvlc reference - 
caffenet.caffemodel) 对 一 张 猫 的 图 片 〈 这 里 使 用 examples/images/catjpg， 见 图 16-17) 进行 分 
类 ， 我 们 利用 matcaffe 提供 的 接口 可 以 打印 出 模型 各 层 对 输入 图 像 的 响应 ， 即 特征 图 。 





图 16-17 ”可爱 的 小 猫 作为 输入 数据 


CaffeNet 模型 对 输入 图 像 产 生 的 响应 如 图 16-18 至 图 16-23 所 示 。 





图 16-18 ”数据 层 输出 
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图 16-19 ”第 一 个 卷 积 层 的 啊 应 





图 16-20 ”第 二 个 卷 积 层 的 响应 特征 图 
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图 16-22 第 四 个 卷 积 层 的 啊 应 


ww ai bbt. com 0000000 


292 深度 学 习 : 21 天 实战 Caffe 








图 16-23 ”第 五 个 卷 积 层 的 典型 啊 应 


每 个 小 方块 显示 了 对 应 特定 滤波 器 的 响应 图 。 注 意 到 低层 响应 特征 图 关注 图 像 中 不 同 细节 
(背景 或 主体 的 纹理 或 轮廓 )， 我 们 从 中 可 以 选择 图 片 风格 特 征 〈 详 见 19.6 WAR), rea EM DY 
特征 图 变 得 局 部 且 稀 划 ， 用 于 剔除 不 相关 内 容 并 提取 目标 重要 的 特 笨 


本 节 Matlab 代 介 Cvisualize feature maps.m， 放 在 Caffe JR Hok Ps mi 22 THEA PE matcaffe ) 
lii F: 


Í iz € r (W, 
= m ( (Ww, le ize (w, ) ) 7 iE 
g =! ts 
= ze(w, 3) 
G eil( (c)) 
= 2r (q Tp ) 
Tor u= tL 
for で ee 
tw = zeros(h, h) 
room. = ) ) = ) 
= Ws, oz lt = 1) r 
Cw = tw = miní(miní(tw)); 
tw = tw / max (max (tw)) 
end 
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Wig = (u = LY + (Leh), ty 
end 
end 
W = uint8(W); 


figure; imshow (W); 


Matlab 主 函 数 代码 (fm visualm， 放 在 Caffe TR EISE F) 如 下 : 


clear; 

cle: 

close all; 
addpath('matlab') 
catfe.set mode cpu(); 


fprintf(['Caffe Version = ', caffe.version(), 'in']); 


net = caffe.Net('models/bvlc reference caffenet/deploy.prototxt', 
'"models/bvlc reference caffenet/bvlc refer affenet.caffemodel', 'test'); 
fprintf('Load net done. Net layers : "); 


net.layer names 


fprintf('Net blobs : '); 


net.blob names 


fprintf('Now preparing data...\n'); 

im = imread('examples/images/cat.jpq'); 
figure;imshow(im);title('Original Image'); 

d = load('matlab/-*caffe/imagenet/ilsvro 2012 mean.mat'); 
mean data — d.mean data; 

IMAGE DIM = 256; 


CROPPED DIM = 227; 


? Convert an image returned by Matlab's imread to im data in caffe's data 


$ format: W x Hx C with BGR channels 


im data = im(:, :, [3, 2, 1]); % permute channels from RGB to BGR 
im data = permute(im data, [2, 1, 3]); % flip width and height 
im data = single(im data); % convert from uint to single 


im data — imresize(im data, [IMAGE DIM IMAGE DIM], 'bilinear'); $ resize im data 
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im data = im data = mean data; を subtract mean data (already in W x H x C, BGR) 
im = imresize(im data, [CROPPED DIM CROPPED DIM], 'bilinear'); % resize im data 
km — cat(4, im, im, im, im, im); 

pm = cat(4, km, km); 

input data = [pm]; 


scores = net.forward(input data); 


scores = scores{1}; 


scores = mean(scores, 2); % také average scores over 10 crops 
[*, maxlabel] = max(scores); 


maxlabel 


figure;plot (scores) ; 


fm data = net.blob vec(1); 
dl - fm data.get data(); 
fprintf('Data size - '); 
size (dl) 


visualize feature maps (di, 1); 


fm convl = net.blob vec(2); 

fl = fm convl.get data(); 
fprintf('Feature map convl size - '); 
size(fl) 


visualize feature maps(fl, 1); 


fm conv2 - net.blob vec(5); 

f2 - fm conv2.get data(); 
fprintf('Feature map conv2 size = '); 
size(f2) 


visualize feature maps(f2, 1); 


fm conv3 - net.blob vec(8); 
£3 = fm conv3.get data(); 
fprintf('Feature map conv3 size = '); 


size(f3) 


ww ai bbt. com HHHHHHH 


第 16 天 Caffe 可 视 化 方法 295 





visualize feature maps(f3, 1); 


fm conv4 = net.blob vec(9); 

f4 = tm conv4.get data(); 
fprintf('Feature map conv4 size = '); 
size(ft4) 


visualize feature maps(f4, 1); 


fm conv5 = net.blob vec(10); 
f5 - fm conv5. get data(); 
fprintf('Feature map convs size = '); 


size(f5) 


visualize feature maps(f5, 1); 


通过 观察 每 层 的 响应 特征 图 ,我 们 可 以 判断 横 型 的 结构 设计 〈 如 每 层 通道 数目 ) 是 否 合理 ， 
如 果 大 量 的 响应 特征 图 部 重复 出 现 或 全 为 接近 0 的 值 ， 则 可 以 减少 通道 数目 以 提高 网 络 效率 。 


16.4 ”学 习 曲 线 


我 们 可 以 利用 Caffe 运行 log 绘制 训练 过 程 中 的 学 习 曲 线 。 
首先 要 把 Caffe 运行 产生 的 所 有 log 重 定 岛 到 文件 ， 使 用 如 下 语句 : 


E 


$ ./examples/cifar/train quick.sh »& cifar.loq & 

其 中 ,“>& "表示 所 有 的 标准 输出 (stdout) 和 标准 错误 得 出 (stderr ) 都 将 被 重 定向 “cifarlog” 
为 重 定向 后 log 保存 的 文件 ， 最 后 的 “&” 表 示 将 命令 放 入 后 台 执行 。 为 了 观察 是 否 正 常 运行 ， 
可 以 在 程序 运行 阶段 ， 使 用 “tail -feifarlog” 连 续 观 测 log 文件 的 更 新 ， 退 出 使 用 “Ctrl+ C". 
TIPS: 将 训练 任务 放 入 后 台 有 什么 好 处 ? 
第 一 ， 你 可 以 用 一 个 终端 干 更 多 的 事情 ， 比 如 一 边 跑 训练 ， 一 边 写 代码 ; 
第 二 ， 当 你 的 终端 ( 有 意 或 无 意 ) 关闭 时 ， 不 会 停止 训练 进程 ; 


第 三 ， 你 可 以 随时 随地 从 其 他 终端 ( 远程 ) 查看 训练 进度 ， 而 不 必要 回 到 启动 训练 任务 的 
那个 终端 ， 


使 用 如 下 Shell 命令 提取 log 文件 中 的 loss ffi: 


" 


$ cat cifar.log | grep "Train net output" | awk '(print $11}' 


ww ai bbt. com [1 HH B. D] DO] HH 


296 深度 学 习 : 21 天 实战 Caffe 


令 作为 输入 。 


aA 
ZR f 





.18319 

.19186 
0,822211. 
0.937064 
1.02281 
0.961253 

.928429 


ビー ロビ Fe Pe ピロ ピロ tM 
No 
e 
un 
m 
Ce 


0 

0.699045 
0.822131 
0.840853 
0.811154 
0.827273 
0.65812 
0. 59129 


0.807019 





这 些 值 即 为 训练 时 loss 值 ， 为 了 打印 出 曲线 ， 我 们 使 用 Matlab 工具 结合 命令 行 提取 月 志 中 














的 loss 数值 ， 并 绘制 


je. d 


24 


图 16-24 所 示 。 


Train & Test Loss Curve 





Train Loss 


2h m 


i Test Loss 
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图 16-24 CIFAR10%3 illi £X 


ww ai bbt. con DOO0000 


第 16 天 Caffe 可 视 化 方法 





297 





通过 学 习 曲 线 ， 可 以 评估 当前 训练 状态 : 
© train loss 不断 下降 , test loss 不 断 下 降 ， 说 明 网 络 仍然 在 认真 学 习 。 
2 train loss 不断 下降 , test loss 趋 于 不 变 ， 说 明 网 络 过 拟 合 。 


© train loss 趋 于 不 变 ，test loss 趋 于 不 变 ， 说 明 学 习 遇 到 瓶颈 ， 需 减 小 学 习 速 率 或 批量 数 


据 尺寸 。 
O train loss 趋 于 不 变 ，test loss 不 断 下 降 ， 说 明 数 据 集 100% 有 问题 。 


2 train loss 不 断 上 升 ，test loss 不断 上 井 (最 终 变 为 NaN)， 可 能 是 网 络 结构 设计 不 当 、 训 


练 超 参数 设置 不 当 、 程 序 bug 等 某 个 问题 引起 的 ， 需 要 进一步 定位 。 


本 节 Matlab 代码 (show loss curve.m, WYE Caffe 根 目 录 下 ) 如 下 : 


clear; 

clc; 

close all; 

& 这 个 参数 用 来 指定 Caffe 运行 log 文件 

à 生成 log 文件 方 法 : ./examples/cifarlO0/train quick.sh >& cifar.logs 


train log file = 'cifar.log'; 
x 这 个 参数 相当 于 solver.prototxt 中 的 display fH 
train interval = 100; 


& 这 个 参数 相当 于 solver.prototxt 中 的 test_intezval {fl 


test interval = 500; 


[^, string output] - dos(['cat ', train log file, ' | grep ''Train net output 40'' 
'"Usrint SRL LS 


$ fid = fopen('matlab train loss', 'r'); 
% train loss = fscanf(fid, '$fWMn'); 

% fclose(fid); 

train loss = str2num(string output); 

n = l:length(train loss); 


idx train = (n - 1) * train interval; 


$ fid = fopen('matlab test loss', 'r'); 
% test loss = fscanf(fid, '$fWMn'); 


& fclose(fid); 


| awk 


[~, string output] = dos(['cat ', train lo i T ep ''Test net output #1'' | awk 
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"Dorint S11p'"'t]j 
test loss - str2num(string output); 
m = l:length(test loss); 
idx test — (m - 1) * test interval; 
figure;plot(idx train, train loss); 
hold on; 


plot(idx test, test loss); 


grid on; 

legend('Train Loss', 'Test Loss"); 
xlabel('iterations'); 
ylabel('loss'); 


title(' Train & Test Loss Curve'); 


16.5 小 结 
俗话 说 ， 耳 听 为 虚 ， 眼 见 为 实 。 今 天 主要 学 习 了 如 何 “ 看 ”Caffe 中 的 细节 信息 ， 包 括 数据 、 
模型 、 特 征 图 和 训练 时 的 学 习 曲 线 。 多 “看 ”能 获得 很 多 有 益 的 提示 ， 指 导 我 们 更 好 地 设计 模 
调试 程序 BIGBI 看破 ” Caffe, 群 然 十 心 。 


16.6 AY 


学 习 Python 或 Matlab 可 视 化 编程 ， 并 使 用 代码 生成 下 图 (数据 来 源 : CIFAR10): 
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2. 使 用 你 所 掌握 的 可 视 化 技术 ， 观 察 MNIST 分 类 过 程 中 的 特征 图 ， 练 习 生 成 下 图 : 








3. 如 何 判断 模型 过 拟 合 ? 如 何 判断 模型 众 拟 合 ? 分 另 


| 应 采取 哪些 措施 ? 
167 参考 资料 


[1] Deep Inside Convolutional Networks: Visualising Image Classification Models and Saliency 
Maps, arXiv:1312.6034v2 

[2] User's Guide for t-SNE Software 

[3] Understanding Deep Image Representations by Inverting Them, arXiv:1412.0035v1 

[4] EXPLAINING AND HARNESSING ADVERSARIAL EXAMPLES, arXiv:1412.6572v3 


[5] Do Convnets Learn Correspondence? 
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今天 我 们 关注 Caffe 在 不 同 平台 上 迁移 《又 称 为 移植 ) 部 署 ， 这 是 实际 工作 中 必 不 可 少 的 
内 容 ， 无 论 用 Caffe 做 互联 网 在 线 业务 〈 在 线 图 像 识 别 、 文 字 识别 、 人 脸 识别 ) 还 是 嵌入 式 系 
统 〈 智 能 机 器 人 、 目 动 驾 驶 系统 )， 都 会 用 到 今天 将 要 介绍 的 内 容 。 





17.1 ”从 开发 测试 到 生产 部 团 


业余 DL 爱好 者 受 实际 软 硬 件 条 件 限 制 ， 一 般 不 会 区 分 “开发 测试 ”和 “生产 部 着 ”这 两 
个 环境 ， 所 有 需要 的 软件 包 都 安装 在 同一 台 机 器 上 。 而 一 旦 作为 产品 对 外 提供 服务 时 ， 就 会 有 
很 大 问题 。 一 方面 ， 开 发 测试 机 器 的 环境 具有 相当 大 的 不 确定 性 ， 例 如 编 详 新 版 本 Caffe 18 o 
旧版 本 ， 一 些 模 块 可 能 需要 做 适 配 才 能 正常 工作 ， 需 要 停 服 维护 : 另 一 方面 ， ed 
大 时 ， 生 产 环境 所 需 的 节点 数目 与 日 俱 增 ， 不 可 能 在 每 个 节点 上 分 别 建立 开发 环境 ， 而 应 使 用 
批量 部 站 (克隆 ) 技术 ， 将 打包 后 的 软件 和 所 需 的 运行 环境 自动 化 推送 到 所 有 生产 节点 。 











深度 学 习 是 新 兴 的 业务 类 型 ， 相 比 Web Server、 数 据 库 这 类 传统 业务 具有 很 多 不 同 点 。 首 
先 ， 深 度 学 习 依 赖 高 性 能 计算 服务 器 ， 而 传统 业务 只 需 很 少 的 计算 量 ， 其 次 ， 深 度 学 习 业 务 一 
般 对 延迟 不 敏感 。 


深度 学 习 业 务 从 开发 测试 到 生产 部 署 可 以 用 一 旬 话 描述 ;离线 训练 、 在 线 识别 。 为 什么 不 
采用 在 线 训练 ? 主要 出 于 两 方面 考虑 : 一 方面 ， 在 线 服 务 器 占用 公 网 带宽 资源 ， 而 训练 相当 消 
耗 计算 能 力 ， 对 网 络 带 宽 需 求 不 高 ， 造 成 资源 浪费 ， 允 一 方面 ， 冉 入 式 系统 本 身 计 算 能 力 较 弱 ， 
为 保证 电池 续航 时 间 不 适合 运行 训练 任务 。 























如 图 17-1 所 示 ， 完 整 的 深度 学 习 开 发 周期 从 逻辑 上 分 为 开发 和 部 署 两 个 阶段 。 在 开发 阶段 
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(离线 训练 阶段 )， 主 要 由 数据 专家 来 选择 训练 数据 ， 由 算法 专家 设计 模型 参数 ， 由 开发 专家 对 
训练 过 程 进行 优化 和 调试 ， 得 到 满足 发 布 的 模型 ， 在 Caffe 中 即 为 *.caffemodel 文件 。 在 部 团队 
Bt (在线 识别 阶段 )， 由 线 上 负责 生产 的 工程 师 利用 开发 团队 提供 的 可 发 布 模型 部 署 到 线 上 生产 


机 器 ， 接 入 线 上 甚 他 服务 如 存储 、 数 据 库 ， 获 取 在 线 数据 〈 可 能 直接 来 自 客户 ) Ji 


使 用 上 述 模 





型 处 理 ， 将 得 到 的 结果 《〈 分 类 /检测 /分 割 ) 返回 客户 端 或 指定 的 存放 结果 的 文件 服务 器 。 生 产 阶 





段 的 一 些 异 常 


家 改进 模型 、 开 发 专家 排查 代码 bug， 得 到 更 准确 的 模型 。 


\ 
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图 17-1 深度 学 习 开 发 周期 


HAR (错误 分 类 ) 也 可 反馈 给 开发 阶段 ， 指 导数 据 专家 剔除 “ 脏 ” 数 据 、 算 法 专 


生产 机 器 除了 上 述 互 联网 线 上 服务 器 之 外 ， 也 可 能 是 某 个 颈 入 式 平台 ， 如 图 17-2 所 示 的 


Jetson TX1!", 





图 17-2 Jetson TXI 
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Jetson TX1 是 一 个 嵌入 式 CPU + GPU 平台 ，CPU 为 64 位 ARM A57, GPU 为 NVIDIA 
Maxwell 架构 ， 拥 有 256 个 CUDA 核心 和 4GB LPDDR4 内 存 ， 运 算 能 力 达 1 TFLOPS。 在 腾 入 
ia, VO 模块 必 不 能 少 ， 除 了 传统 的 UART、12C、I2S、SPI 接口 外 ，Jetson TX1 还 具有 
AK 编 /解码 模块 、DP/HDMI 视频 输出 接口 和 每 秘 接 收 14 化 像 素 的 高速 相 机 接 日 , 即 毎 秒 可 以 
ee oiii DN eet 
常 适合 嵌入 式 计算 机 视觉 应 用 ， 如 智能 机 器 人 或 自动 玖 驶 汽 3 


使用 Jetson TXI 部 署 Caffe 模型 非常 简单 ， 无 须 修 改 代 僻 ， 只 需 将 开发 阶段 得 到 的 
* caffemodel #1142 SD 卡 ， 插 入 开发 板 并 设置 合理 的 运行 参数 ， 机 器 即 可 迅速 获得 相应 智能 ， 


本 节 从 窗 观 上 介绍 了 从 开发 测试 到 生产 部 团 的 过 程 ， 下 一 节 将 介绍 县 体 的 实现 方法 。 
17.2 使 用 Docker 


Docker 吕 是 一 个 开源 的 应 用 容器 引 敬 ,开发 将 可 以 把 一 个 Linux 应 用 和 它 所 依赖 的 一 切 ( 比 
如 配置 文件 和 库 ) 部 封闭 到 一 个 容器 中 ， 然 后 发 布 到 任何 Linux Blas be “ 穿 器 ”技术 是 一 种 沙 
箱 机 制 ， 不 同 实例 之 间 互 相 不 影响 〈 类 似 于 iPhone 的 app). E85! 3 dU. M 不同 , uidere 
作 系 统 ， 而 是 共享 主机 上 的 操作 系统 ， 所 以 几乎 没有 性 能 开销 ， 可 以 很 容易 地 在 机 器 和 数据 中 
心中 运行 。 

















Docker 作为 一 种 全 新 的 自动 化 运 维 工 具 ， 可 以 实现 开发 测试 环境 与 生产 部 署 环境 的 平滑 迁 
移 ， 大 大 提高 了 开发 上 线 的 效率 。 目前 已 有 大 量 互 联网 公司 使 用 Docker 技术 取代 传统 的 生产 部 
区 发布 流程 。 


17.2.4 Docker 基本 概念 





首先 我 们 需要 理解 Docker 最 重要 的 三 个 概念 镜像 Omage), is (Container)、 镜 像 仓 
库 CDocker Hub). 








镜像 Amage): 一 个 包含 了 应 用 程序 和 其 运行 时 依赖 环境 的 只 读 文 件 ( 可 类 比 为 系统 盘 、 
可 执行 程序 文件 )， 它 是 构建 容器 的 模板 ， 通 过 一 个 镜像 我 们 可 以 构造 出 很 多 相互 独立 
但 运行 环境 一 样 的 容器 。 





O 容器 (Container): 基于 某 个 镜像 生成 并 动态 运行 的 相互 隔离 的 实例 〈 可 类 比 为 运行 起 
来 的 操作 系统 、 运 行 可 执行 程序 文件 的 进程 )。 
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> 镜像 仓库 (Docker Hub): Docker 官方 提供 的 用 于 集中 存储 、 管 理 镜 像 的 服务 ， 采 用 类 
似 于 Git Hub 的 方式 保存 公有 或 私有 的 镜像 ， 同 时 允许 第 三 方 搭建 。 
如 图 17-3 所 示 就 是 典型 的 Docker 工作 流程 ， 通 过 此 图 能 清晰 地 理解 这 三 个 重要 概念 之 间 
的 关系 。 


| Docker Engine 


Host 1 OS (Linux) 
Host 2 OS (Linux) 





[417-3 Docker (Fini FE 


图 17-3 中 ， 包 括 两 个 主机 Host 1 和 Host 2， 其 中 Host 1 用 来 构建 Docker 镜像 ， 对 应 于 上 
节 的 开发 测试 机 器 ， 由 开发 工程 师 定制 镜像 中 的 内 容 并 打包 ; Host 2 对 应 于 上 节 的 生产 部 署 机 
器 ， 由 生产 工程 师 获 取 指定 镜像 并 运行 。 开 发 和 生产 机 器 之 间 的 镜像 通过 镜像 仓库 统一 管理 和 - 
分 发 。 接 下 来 我 们 一 步 步 学 习 这 些 操作 流程 。 


17.2.2 Docker 安装 


siey 


需要 使 用 root 权限 。 
1. Ubuntu 安装 步骤 


# apt-get update 


# apt-get -y install docker.io 


检验 Docker 服务 的 状态 : 


# service docker.io status 


docker.io start/running, process 14394 
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把 Docker 安装 为 自 启动 服务 ， 让 它 随 服务 器 的 启动 而 自动 运行 ， 执 行 命令 : 
# update-rc.d docker.io defaults 
2. CentOS 7、Fedora 21 安装 步骤 


# yum install -y docker 


启动 Docker 服务 : 

# systemctl start docker 
检查 服务 状态 是 否 正常 : 

# systemctl status -1 docker 
设置 开机 自 启动 : 

“# systemctl enable docker 
3. 添加 Docker RPA 


在 默认 情况 下 ， 只 有 root 用 户 具 有 Docker 使 用 权限 。 这 样 不 利于 团队 协作 。 我 们 可 以 创建 
一 个 docker 用 户 组 ， 将 所 有 需要 使 用 Docker 服务 的 用 户 添 加 到 用 户 组 中 ， 尽 量 避 免 多 人 同时 
使 用 root 用 户 。 


# usermod -aG docker your user name 
现在 可 以 退出 root 用 户 ， 使 用 docker 用 户 组 中 的 用 户 运行 Docker 命令 了 。 
4. 测试 Docker 安装 成 功 


运行 一 个 hello world 例 程 ， 如 果 正 常 则 说 明 前 面 配置 没 问 题 。 正 常 的 输出 为 : 


$ docker run hello-world 

Unable to find image 'hello-world:latest' locally 

latest: Pulling from hello-world 

d59cd4c39e50: Pull complete 

fld956dc5945: Pull complete 

Digest: sha256:4£32210e234b4ad5cac92efacc0a3d602b02476c754£13d517e1ada048e5a8ba 


Status: Downloaded newer image for hello-world:latest 


Hello from Docker. 


This message shows that your installation appears to be working correctly. 


To generate this message, Docker took the following steps: 
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1. The Docker client contacted the Docker daemon. 

2. The Docker daemon pulled the “hello-world" image from the Docker Hub. 

3. The Docker daemon created a new container from that image which runs the 
executable that produces the output you are currently reading. 

4. The Docker daemon streamed that output to the Docker client, which sent it 


to your terminal. 


To try something more ambitious, you can run an Ubuntu container with: 


$ docker run -it ubuntu bash 


Share images, automate workflows, and more with a free Docker Hub account: 


https://hub.docker.com 


For more examples and ideas, visit: 


https://docs.docker.com/engine/userguide/ 


如果 一 切 正常 , ARES VRAT EE JT Er Rp. AES E! 


17.2.3 Docker AT] 


在 安装 了 Docker 的 系统 命令 行 中 输入 docker 并 运行 ， 可 获得 如 下 命令 详 单 : 


$ docker 
Usage: docker [OPTIONS] COMMAND [arg...] 


A self-sufficient runtime for linux containers. 


Options: 
--api-cors-header- Set CORS headers in the remote API 


-b, --bridge- Attach containers to a network bridge 


--bip- 
-D, --debug-false 

-d, --daemon-false 
--default-ulimit-[] 
--dns-[] 

--dns-search-[] 

-e, --exec-driver-native 
--fixed-cidr- 
--fixed-cidr-v6- 


-G, --group-docker 


Specify network bridge IP 

Enable debug mode 

Enable daemon mode 

Set default ulimits for containers 
DNS server to use 

DNS search domains to use 

Exec driver to use 
IPv4 subnet for fixed IPs 
IPv6 subnet for fixed IPs 


Group for the unix socket 
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-g, --graph-/var/lib/docker Root of the Docker runtime 

-H, --hostz[] Daemon socket(s) to connect to 

-h, --help-false Print usage 

--icc-true Enable inter-container communication 
--insecure-registry-[] Enable insecure registry communication 
--ip=0.0.0.0 Default IP when binding container ports 
--ip-forward-true Enable net.ipv4.ip forward 
--ip-masq-true | Enable IP masquerading 

--iptables-true Enable addition of iptables rules 
--ipv6-false . Enable IPv6 networking 

-l, --log-level-info Set the logging level 

--label-[] Set key-value labels to the daemon 
--log-driver-json-file Containers logging driver 

--mtu-0 Set the containers network MTU 


-p, --pidfile-/var/run/docker.pid Path to use for daemon PID file 


--registry-mirror-[] Preferred Docker registry mirror 
-s, --storage-driver- Storage driver to use 
--selinux-enabled-false Enable selinux support 
--storage-opt-[] Set storage driver options 
--tls-false Use TLS; implied by --tlsverify 
--tlscacert--/.docker/ca.pem Trust certs signed only by this CA 
--tlscert--/.docker/cert.pem Path to TLS certificate file 
--tlskey--/.docker/key.pem Path to TLS key file 
--tlsverify-false Use TLS and verify the remote 
-v, --version-false Print version information and quit 
Commands: 

attach Attach to a running container 

build Build an image from a Dockerfile 

commit Create a new image from a container's changes 

cp Copy files/folders from a container's filesystem to the host path 

create Create a new container 

diff Inspect changes on a container's filesystem 

events Get real time events from the server 

exec Run a command in a running container 

export Stream the contents of a container as a tar archive 


history Show the history of an image 
images List images 


import Create a new filesystem image from the contents of a tarball 
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info 
inspect 
kill 
load 
login 
logout 
logs 
port 
pause 
ps 

pull 
push 
rename 
restart 
rm 

rmi 

run 
save 
search 
start 
stats 
stop 
tag 

top 
unpause 
version 


wait 


Run 'docker 


这 么 多 命令 ， 让 初学 者 一 脸 茫 然 ， 到 底 从 哪个 开始 ? 别 急 ， 不 需要 全 部 掌握 ， 


第 17 天 Caffe 迁移 和 部 署 





Display system-wide information 

Return low-level information on a container or image 

Kill a running container 

Load an image from a tar archive 

Register or log in to a Docker registry server 

Log out from a Docker registry server 

Fetch the logs of a container 

Lookup the public-facing port that is NAT-ed to PRIVATE PORT 
Pause all processes within a container 

List containers 

Pull an image or a repository from a Docker registry server 
Push an image or a repository to a Docker registry server 
Rename an existing container 

Restart a running container 

Remove one or more containers 

Remove one or more images 

Run a command in a new container 

Save an image to a tar archive 

Search for an image on the Docker Hub 

Start a stopped container 

Display a stream of a containers' resource usage statistics 
Stop a running container 

Tag an image into a repository 

Lookup the running processes of a container 

Unpause a paused container 

Show the Docker version information 


Block until a container stops, then print its exit code 


COMMAND --help' for more information on a command. 


也 就 那么 几 个 。 


1， 显 示 Docker 信息 


使 用 “docker version” 命 令 可 以 显示 版 本 信息 ， 运 行 结果 如 下 : 








$ docker version 


Client version: 1.6.2 


Client API version: 1.18 


Go version 


(client): gol. 


N 
p 
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Git commit (client): 7c8fca2 

OS/Arch (client): linux/amd64 
Server version: 1.6.2 

Server API version: 1.18 

Go version (server): gol.2.1 

Git commit (server): 7c8fca2 


OS/Arch (server): linux/amd64 


可 见 ， 该 命令 执行 结果 显示 了 当前 安装 的 Docker 客户 端 /服务 器 软件 版 本 、 
语言 版 本 等 信息 。 


如 果 需 要 了 解 当前 Docker 的 使 用 状态 ， 使 用 “docker info" me: 


$ docker info 

Containers: 12 

Images: 11 

Storage Driver: aufs 

Root Dir: /var/lib/docker/aufs 
Backing Filesystem: extfs 

Dirs: 35 

Dirperml Supported: false 

Execution Driver: native-0.2 

Kernel Version: 3.13.0-83-generic 
Operating System: Ubuntu 14.04.4 LTS 
CPUs: 28 

Total Memory: 62.79 GiB 

Name: XXX 

ID: XXXX:XXXX:XXXX:XXXX:XXXX: XXXX : XXXX: XXXX: XXXX : XXXX : XXXX : XXXX 
WARNING: No swap limit support 


API 版 本 、Go 


该 命令 显示 了 当前 容器 、 镜 像 数 目 信 息 ， 以 及 存储 空间 占用 情况 ， 还 有 操作 系统 内 核 版 本 、 


发 行 版 本 、 硬 件 资源 等 信息 。 这 些 是 系统 管理 员 关心 的 信息 。 
2. 下载 Docker 镜像 


下 面 我 们 运行 带 pull 选项 的 docker 命令 ， 拉 取 一 个 镜像 ， 即 从 Docker 注册 服务 器 的 软件 


仓库 下 载 一 个 现成 的 Docker 镜像 。 
使 用 的 命令 如 下 : 


$ docker pull ubuntu 


Pulling repository ubuntu 
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4ef6a5ecel91: Download complete 
41fab45213e8: Download complete 
cc592d60c68d: Download complete 
02e32c081c51: Download complete 
19284924629c: Download complete 


Status: Downloaded newer image for ubuntu:latest 


拉 取 镜像 成 功 后 ， 使 用 “docker images” 命 令 查 看 系统 中 已 有 的 镜像 : 


S docker images 


REPOSITORY TAG IMAGE ID CREATED VIRTUAL SIZE 
ubuntu latest 4ef6a5ecel 91 5 days ago 120.1 MB 
hello-world latest fld956dc5945 4 days ago 967 B 


可 以 看 到 有 两 个 镜像 : ubuntu 和 hello-world， 前 者 是 刚刚 运行 “docker pull ubuntu * 命令 下 
载 得 到 的 ; 而 hello-world 是 前 面 测试 Docker 安装 是 否 成 功 时 运行 “docker run hello-world” 命 
令 下 载 得 到 的 。 

3， 从 镜像 创建 Docker 容器 

利用 下 载 好 的 镜像 ， 可 以 使 用 “docker run” 命 令 创建 一 个 活动 的 容器 ; 


$ docker run -i -t ubuntu/bin/bash 
root8e6fb03f84b6e:/4 1s 


bin boot dev etc home iib lib64 media mnt opt proc root run sbin srv sys 
tmp usr var 


root@e6fbO3f84b6e:/# who 
root8e6fb03f84b6e:/4 uname -a 
Linux e6fb03f84b6e 3.13.0-83-generic #127-Ubuntu SMP Fri Mar 11 00:25:37 UTC 2016 x86 64 
x86 64 x86 64 GNU/Linux 
“docker run” 的 参数 解释 如 下 : 


O -i 交互 模式 ， 让 输入 输出 都 在 标准 控制 台 进 行 ; 与 此 相反 的 是 -d 选项 ， 容 器 启动 后 进 
入 后 台 运 行 ， 非 交互 模式 。 l 


O -t， 为 新 创建 的 容器 分 配 一 个 伪 终 端 (ty)。 
Q ubuntu， 这 里 给 出 用 于 创建 容器 的 镜像 名 称 ， 也 可 以 用 镜像 ID 代替 。 


O /bin/bash， 在 新 建 容 器 中 运行 的 命令 ， 可 为 任意 Linux 命令 。 
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TIPS: 举 几 个 在 Docker 容器 中 运行 常用 Linux 命令 的 例子 : 
$ docker run -i -t ubuntu hostname 
4902514abb53 
$ docker run =i. =t ubuntu ls 
bin dev home 1lib64 mnt proc run srv tmp var 
boot etc lib media opt root sbin sys usr 
$ docker run -i -t ubuntu date 


Sun May 1 12:37:52 UTC 2016 





在 容器 中 ， 有 时 希望 回 到 宿主 机 环境 ， 即 临时 断 开 容器 和 当前 终端 的 连接 ， 可 以 使 用 组 人 台 
键 “Cttl+ P” 和 “Ctrl+Q” 返回 宿主 机 终端 会 话 : 


root(610f016981be:/t 【 先 按 下 “ ctrl + P" IRF“ ctrl + QO”) 
$【 这 里 是 宿主 机 终端 会 话 】 




















在 宿主 机 上 干 了 点 事情 之 后 ， 想 回 到 之 前 的 容器 (不 是 新 建 一 个 容器 )， 怎 么 操作 昵 ?我 们 
需要 运行 “docker ps” 命 令 查看 当前 活动 (运行 ) 的 容器 : 


$ docker ps 





CONTAINER ID IMAGE COMMAND CREATED STATUS PORTS NAMES 
610f016981be ubuntu:latest "/bin/bash" 26 minutes ago Up 26 minutes prickly wilson 


该 命令 打印 当前 活动 容器 的 信息 ， 包 括 容 器 ID、 从 哪个 镜像 创建 的 、 容 器 中 执行 的 命令 、 
创建 时 间 、 状 态 、 端 口 占用 情况 、 容 器 名 。 通 过 该 命令 可 以 获得 非常 关键 的 信息 ， 我 们 后 面 会 
使 用 这 些 信息 创建 新 的 镜像 。 

















可 以 看 到 活动 容器 的 ID 为 610*， 通 过 “docker attach” 命 令 可 以 再 
端的 连接 : 
$ docker attach 610 
【看 上 去 不 明显 ， 实 际 已 进入 容器 】1s 


bin boot dev etc home lib lib64 media mnt opt proc root run sbin sry sys 


次 建立 该 容器 和 当前 终 


I 


tmp usr var 


root8610f016981pbe:/i 


命令 行 中 的 “610” 就 是 容器 ID 的 前 3 个 字符 。Docker 的 一 个 方便 之 处 在 于 不 需要 输入 全 
部 ID， 而 只 输入 前 3 个 字符 就 能 自动 识别 。 后 面 使 用 的 镜像 ID 也 是 如 此 。 

4， 从 容器 创建 Docker 镜像 

创建 Docker 镜像 的 方法 主要 有 两 种 : 一 种 是 从 运行 的 容器 创建 镜像 ， 另 一 种 是 编写 
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DockerFile 文件 创建 镜像 。 这 里 我 们 介绍 第 一 种 方法 ， 而 第 二 种 方法 留 为 作业 。 


使 用 “docker commit” 命 令 实现 将 运行 的 容器 打 为 镜像 ， 这 个 功能 非常 重要 。 
root6610f016981be:/4 touch README .md 
root6610f016981be:/$ echo "This is a test modification" >> README.md 
root8610f016981be:/4 [XE F “ Ctrl + P”, HHEF “ Ctrl + Q"] 
$【 这 里 是 宿主 机 终端 会 话 】 


5 


5 docker commit -m "Test a change" 610 ubuntu:test change 


679acd7c336675d1cf22c27ab9a96cd782f6af472141e55e76fe5cc04d343638 


上 面 的 “docker commit" 命令 类 似 于 git 中 的 commit 命令 ， 提 交 更 改 到 本 地 库 。 “610” 为 
用 来 创建 镜像 的 活动 容器 ID, “ubuntu:test change” 为 新 镜像 的 库 名 : 标签 ， 我 们 查看 当前 系统 
中 己 有 的 镜像 : 


$ docker images 


REPOSITORY TAG IMAGE ID CREATED VIRTUAL SIZE 
ubuntu test change 679acd7c3366 5 seconds ago 120.1 MB 
hello-world latest fld956dc5945 4 days ago 967 B 
ubuntu latest Jef6a5ecel91 5 days ago 120.1 MB 


可 以 发 现 增加 了 一 个 新 的 镜像 ， 既 可 以 用 ubuntu:test change 来 标记 ， 也 可 以 用 其 镜像 ID 
(679) 来 标记 。 

利用 该 镜像 创建 新 的 容器 时 ， 容 器 内 包含 了 “docker commit” 前 所 有 更 改 的 内 容 ， 我 们 测 
试 mi 
$ docker run -t -i 679 /bin/bash 


root82231483a0ef0:/4 cat README.md 


This is a test modification 

可 见 容器 内 包含 了 新 建 的 文件 “README.md ”， 实现 了 预期 的 更 改 。 

5. 上 人 Docker 镜像 

如 果 和 希望 将 本 地 更 改过 的 镜像 分 享 给 其 他 人 ， 则 需要 通过 “docker push” 将 本 地 镜像 推送 
到 Docker Hub， 该 动作 与 “docker pull” 刚 好 相反 。 

为 了 获得 推送 权限 ,你 需要 注册 Docker Hub Jc! 注册 成 功 后 ， 运 行 “docker login" Gs: 


$ docker login 
Username: zhaoyongke 
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Password:*********** 
Email: zhaoyongke8yeah.net 
WARNING: login credentials saved in /home/zyk/.dockercfg. 


Login Succeeded 


推送 本 地 镜像 到 Docker Hub: 


c 


$ docker tag 679 zhaoyongke/mas itercaffein21days:test ubuntu change 
t 


$ docker push zhaoyongke/mastercaffein21days:test ubuntu change 

The push refers to a repository [zhaoyongke/mastercaffein21days] (len: 1) 
679acd7c3366: Image already exists 

4ef6a5ecel91: Image successfully pushed 

19284924629c: Image successfully pushed 

02e32c081c51: Image successfully pushed 

cc592d60c68d: Image successfully pushed 


raat 【等 待 时 间 较 入 ， 不 建议 读者 推送 到 官方 Docker Hub， 而 是 参考 下 节 内 容 】 
17.2.4 Docker 使 用 进 阶 


使 用 阿里 云 Docker Hub 管理 镜像 


考虑 到 国内 读者 访问 Docker 官网 速度 较 慢 , 推荐 使 用 阿里 云 Docker Hub, 加 図 17-4 所 
示 。 





L3 rl meme Me AWO wd he か WMI 


EL LS 


来 自 云端 的 容器 Hub 服 务 





图 17-4 阿里 云 Docker Hub 


单 击 右上 角 的 “管理 中 心 ” 按 钮 ， 弹 出 登录 界面 ， 用 你 的 阿里 云 账号 登录 ， 成 功 后 显示 如 
图 17-5 所 示 。 
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图 17-$ 阿里 云 Docker Hub 管 理 中 心 


选择 左 侧 的 “镜像 管理 ”标签 ， 新 用 户 会 提示 设置 自己 的 镜像 仓库 “命名 空间 ”和 密码 。 
空间 是 私人 镜像 的 地 址 前 级 。 单 击 “ 立 即 设置 ”"， 本 书 这 里 设置 为 ie 
在 设置 命名 空间 的 同时 需要 设置 密码 ， 请 牢记 该 密码 。 


完成 命名 空间 和 密码 设置 之 后 ， 可 以 创建 第 一 个 镜像 仓库 (repository)。 我 们 创建 一 个 名 称 
为 caffe 的 镜像 仓库 ， 设 置 如 图 17-6 所 示 。 


MEARS dummoms 


eese master caffe in 21days/ :s'e © 
WATSESAERM ERAI 
EWSNESRSS. KE CRORE > (EREEREER) 
Re MN Caffe S502. M-F Ubuntu 1404 
9 
^ o2 s 
WIE Bi zCoce GitHub Bitbucker Ozer 


</> CONSE Ear act Tce fon 


| | 
| | 


图 17-6 ”创建 第 一 个 Docker 镜 像 仓 库 
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“仓库 类 型 ”选择 “公开 ”时 , 所 有 阿里 去 用 户 都 能 访问 (只 读 ) 你 的 镜像 仓库 ， 而 选择 “ 私 
有 ”有 时 ， 只 有 自己 可 见 ， 读 者 应 根据 实际 情况 选择 ， 避 免 将 带 有 登录 账号 、 包 含 商业 代码 、 未 


清理 使 用 记录 的 镜像 推送 到 公开 镜像 仓库 。 


























创建 成 功 后 回 到 管理 中 心 ， 看 到 显示 如 图 17-7 所 示 。 


Fito. cr.console.aliyun.com / ?spima 8 1 76 
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cafe At retiitry.allyuncs.com/master caffe in 2ldays/caffe 2016-05-01 17:00:47 wu wis 


图 17-7 ”Docker 镜 像 仓库 创建 成 功 


从 图 17-7 看 到 我 们 刚刚 创建 的 仓库 地 址 为 registry.aliyuncs.com/master caffe in 21days/caffe, 
EE 个 公 网 地 址 ， 也 称 为 外 网 地 址 。 在 阿里 云 ECS 或 HPC 物理 机 上 可 以 使 用 内 网 地 址 获得 极 
高 的 内 网 带宽 ， 内 网 地 址 为 registry-internal.aliyuncs.com/master_caffe_in 21days/caffe. 











使 用 阿里 云 账号 和 之 前 设 定 的 Docker 仓库 密码 ， 登录 阿里 云 Docker 仓库 。 








公 网 用 户 : 





$ docker login registry.aliyuncs.com 

Username: zhaoyongke@yeah.net 

Password: ook eoe eee ee ke e à A A x 

Email: zhaoyongke@yeah.net 

WARNING: login credentials saved in /home/XXXX/.dockercfg. 

Login Succeeded 

$ docker tag 679 registry.aliyuncs.com/master caffe in 21days/caffe:base 
$ docker push registry.aliyuncs.com/master caffe in 21days/caffe:base 
The push refers to a repository [registry.aliyuncs.com/master caffe in 21days/caffe] (len: 1) 
679acd7c3366: Image already exists 

4ef6a5ecel91: Image successfully pushed 

19284924629c: Image successfully pushed 

02e32c081c51: Image successfully pushed 


cc592d60c68d: Image successfully pushed 








41fab4521368: Image successfully pushed 


Digest: sha256:990c55193fae00b9dff22fd4e9626eabf4bal32aac9ce596p586726d33e769c95 
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在 阿里 云 控制 台 查 看 镜像 版 本 ， 如 图 17-8 所 示 。 


emo E lom ] 





tm new 


nanye ID y2 sarg 


833417114025 base 2016-05-02 19:43:53 990c5519; e '4b31322ac9iceS960867 26d33e7 69c95 








图 17-8 ”Docker 镜 像 推送 成 功 后 的 控制 人 台 信 息 
TIPS: 内 网 用 户 可 以 将 上 述 Docker Hub 地 址 改 为 内 网 地 址 以 获得 更 高 的 带宽 : 


# docker login registry-internal.aliyuncs.com 
* docker tag imageidregistry-internal.aliyuncs.com/YOUR NAMESPCE/YOUR REPO 
* docker push registry-internal.aliyuncs.com/YOUR NAMESPCE/YOUR REPO 


此 时 读者 已 经 在 阿里 云 Docker Hub 上 发 布 了 第 一 个 Docker 簡 像 門 , dp CORFE A UR 
环境 打包 到 镜像 中 。 在 另 一 台 机 器 上 部 器 该 镜像 非常 简单 ， 首 先 将 镜像 拉 取 到 本 地 ; 


$ docker pull registry.aliyuncs.com/master caffe in 21days/caffe:base 





Trying to pull repository registry.aliyuncs.com/master caffe in 21days/caffe ... base: 
Pulling from master caffe in 2ldays/caffe 


679acd7c3366: Already exists 
41fab45213e8: Already exists 
cc592d60c68d: Already exists 
02e32c081c51: Already exists 
19284924629c: Already exists 
4ef6a5ecel91: Already exists 
Digest: sha256:990c55193fae00b9dff22fd4e9626eabf4bal32aac9ce596b86726d33e769c95 


Status: Downloaded newer image for  registry.aliyuncs.com/master caffe in 21days/ 
caffe:base 


然后 利用 该 镜像 创建 容器 : 


$ docker run -ti registry.aliyuncs.com/master caffe in 21days/caffe:base /bin/bash 
root@b38£60072664:/# ls 


README.md bin boot dev etc home lib lib64 media mnt opt proc root run sbin 
sry sys tmp usr var 


root@b38f60072664:/# cat README.md 
This is a test modification 
root8538f60072664:/4 


这 样 就 实现 了 利用 Docker 从 开发 机 器 各 生产 机 器 的 迁移 部 署 。 
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2. 在 Docker 容器 中 访问 GPU 


笔者 已 经 在 阿里 云 容器 Hub 上 发 布 了 基于 Ubuntu 14.04 系统 并 部 署 好 Caffe + CUDA 7.5 + 
GPU 驱动 352.39 环境 的 镜像 各， 读者 可 在 支持 Docker 的 系统 中 执行 “docker pull” 命 令 获 得 该 
镜像 : 


$ docker pull registry.aliyuncs.com/est123/digits2:caffe 


Trying to pull repository registry.aliyuncs.com/est123/digits2 ... caffe: Pulling from 
est123/digits2 


d3alf33e8a5a: Pull complete 
c22013c84729: Pull complete 
d74508£b6632: Pull complete 
91e54dfb1179: Pull complete 
37cb59f61a4d: Pull complete 
8991059993d2: Pull complete 
12c38bd7b0da: Pull complete 
cfa6969bb539: Pull complete 
a50ed1359171: Pull complete 
5F71a95c0a9F: Pull complete 
Digest: sha256:9960d20784617db3e6cb6b423c15f83f43c4cf3ef42c7a9a6c53ce6a8a4d5395 


Status: Downloaded newer image for registry.aliyuncs.com/est123/digits2:caffe 


查看 镜像 : 


$ docker images 
REFOSITORY TAG CREATED IMAGE ID VIRTUAL SIZE 
registry.aliyuncs.com/estl23/digits2 caffe 5f71a95c0a9f 9 weeks ago 4.813 GB 


这 时 使 用 前 面 的 “docker run” 命 令 创建 容器 ， 在 运行 Caffe 时 CUDA 会 报错 。 需 要 利用 如 
下 命令 创建 容器 : 


$ docker run -ti \ 
--device /dev/nvidia0:/dev/nvidiaO \ 
--device /dev/nvidiactl:/dev/nvidiactl \ 
--device /dev/nvidia-uvm:/dev/nvidia-uvm \ 
-v /diskl:/diski \ 
5f7 /bin/bash 


其 中 , 选项 --device 实现 了 容器 直通 宿主 机 的 相应 设备 , 这 样 在 容器 中 就 能 正常 运行 CUDA 
程序 了 。 读 者 可 以 使 用 15.2.4 节 中 的 方法 验证 容器 中 GPU 驱动 与 CUDA 是 否 安 装 成 功 。 
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如果 GPU 驱动 和 CUDA 测试 没有 问题 , 则 可 以 进入 /rootVcaffe/ 目 录 , 运行 如 下 命令 进行 测试 : 


# ./build/tools/caffe.bin time -model models/bvlc reference caffenet/deploy.prototxt 
-gpu 0 


运行 得 出 请 参考 第 15 大 内 容 。 


至 此 ， 读 者 掌握 了 Docker 工具 ， 可 以 获得 更 大 的 自由 选择 其 他 支持 Docker 的 深度 学 习 开 
发 工具 (如 TensorFlow)。 使 用 Docker 可 以 让 你 养 成 保持 干净 环境 的 好 习惯 ， eo 
坏 已 有 的 开发 工作 ， 提 高 产品 途 代 、 发 布 效率 ， 适 应 越 来 越 快 的 互联 网 的 工作 节 秦 ， 成 为 优秀 
的 生产 工程 师 (PE)。 


17.3 ”练习 题 


1. 学 习 Docker File 创建 镜像 。 
2. 容器 技术 和 虚拟 机 技术 有 哪些 相同 点 与 不 同 点 ? 
3. Docker 容器 内 能 运行 Docker 容器 ? 


4. 分 别 在 Docker 容器 和 宿主 机 上 运行 相同 的 计算 程序 ， 对 比 并 评 佑 Docker 容器 引起 的 性 
能 损失 情况 。 


5. 获取 其 他 深度 学 习 框架 的 Docker 镜像 。 
17.4 参考 資料 


[1] How to run the Caffe deep learning vision library on Nvidia 's Jetson mobile GPU board, Pete 
Warden's blog, https://petewarden.com/2014/10/25/how-to-run-the-caffe-deep-learning-vision-library- 


on-nvidias-jetson-mobile-gpu-board/ 
[2] Docker 官网 : https://www.docker.com/ 
[3] Docker Hub: https://hub.docker.com/ 
[4] 阿里 云 Docker Hub: https://dev.aliyun.com/search.html 
[5] 阿里 云 Docker 使 用 文档 : https://hpc.aliyun.com/doc/docker 镜像 服务 


[6] 阿里 云 深度 学 习 工 具 集 : http//dev.aliyun.com/detail.html?repold-2 
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第 了 8 x 
AT ILSVRC 不 得 不 说 的 一 些 事 儿 


前 面 多 次 提 到 ILSVRC (ImageNet Large Scale Visual Recognition Challenge,“ 图 网 ”大 规模 
视觉 识 另 paie ttt FR E d DAS EAE JE LA UA. AAEREN, 不断 刷新 図像 
识别 纪录 。 今 天 我 们 将 目光 聚焦 于 这 项 赛事 ， 读 者 可 MESANA JAE T f EAE AU] JERA 


全 各 项 任务 冠军 的 经 验 让 自己 近 距 离 接 触 国际 领先 技术 ， 指 导 今 后 的 学 习 和 工作 。 





ILSVRC 自从 2010 年 开始 ， 每 年 举行 一 次 。 具 有 数 百 个 物体 类 别 、 百 万 量 级 图 片 ， 成 为 计 
算 机 视觉 领域 图 像 分 类 、 检 测算 法 性 能 评估 参考 标准 。 





18.1 ImageNet 数据 集 


ImageNet 数据 集 是 按照 WordNet 架构 组 织 的 大 规模 带 标签 图 像 数 据 集 ， 其 发 起 者 为 斯 坦 福 
KA KKI, K] 18-1 显示 了 ImageNet 中 一 些 样 例 图 片 





图 18-1 ImageNet 样 例 图 片 


在 WordNet 中 有 意义 的 概念 〈 可 能 是 多 个 单词 或 短语 ) 称 为 一 个 同义词 集 (synonym set, 
简称 synset)。 在 WordNet 中 有 超过 100 000 个 同义词 集 ， 绝 大 部 分 是 名 词 。ImageNet 选取 了 
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WordNet 中 21 841 个 同义词 集 并 为 每 个 同义词 集 提 供 了 平均 650 张 全 分 辩 率 图 片 ， 总 共 
14 197 122 张 标 注 图 片 ， 每 张 图 片 都 经 过 了 严格 人 工 筛 选 与 标记 ， 这 是 一 项 极 具 挑战 性 的 工作 。 
与 其 他 图 像 分 类 数据 集 相 比 ，ImageNet 具有 规模 大 、 多 元 化 等 优势 。 

读者 需要 注意 ，ImageNet 并 没有 这 些 图 像 的 所 有 权 ， 只 是 提供 了 这 些 图 像 的 索引 和 URL, 
类 似 于 图 像 搜索 引擎 ， 所 以 在 商业 应 用 中 使 用 这 些 图 像 有 一 定 的 风险 。 


182 ILSVRC 比赛 项 目 


ILSVRC 延续 了 PASCAL VOC 比赛 项 目 让， 后 者 从 2005 年 开始 ， 以 一 年 一 度 的 比赛 形式 
形成 了 评估 图 像 识 别 算法 的 标准 化 方法 。 

ILSVRC 主要 由 “公开 数据 集 + 年 度 比 赛 和 专题 研讨 会 ”两 部 分 构成 ， 公 开 数 据 集 用 于 开 
发 和 对 比 目 标 分 类 识别 算法 , 比赛 和 专题 研讨 会 提供 每 年 跟踪 最 新 进展 和 讨论 从 中 学 到 的 教训 。 

公开 数据 集 包 括 人 工 标注 的 训练 集 ， 评 测 集 也 做 了 人 工 标注 但 标签 不 公开 。 参 赛 者 使 用 训 
练 集 图 片 和 标签 训练 其 算法 ， 然 后 自动 标注 评测 集 图 片 ， 将 标注 后 的 结果 提交 到 比赛 阶段 开放 
的 评价 服务 器 , 评价 结果 将 在 比赛 结束 阶段 公布 。 作 者 将 被 邀请 到 国际 计算 机 视觉 会 议 (ICCV) 
/欧洲 计算 机 视觉 会 议 (ECCV) 中 的 专题 研讨 会 分 享 其 技术 。 

ILSVRC 使 用 的 公开 数据 集 是 ImageNet 的 子 集 ， 就 以 2012 年 ILSVRC 分 类 任务 数据 集 
C Caffe 训练 图 像 分 类 模型 时 通常 用 该 数据 集 作 为 基准 ) 为 例 ， 其 中 训练 集 为 1281 167 张 图 片 + 
标签 ， 验 证 集 为 50000 张 图 片 + 标签 ， 用 于 最 终 打分 的 评测 集 为 100 000 张 图 片 (无 标签 )， 
这 些 图 片 属于 1 000 个 不 同类 别 。 

有 条 件 的 话 ， 也 可 以 在 完整 的 ImageNet 数据 集 上 训练 ， 只 是 需要 更 大 的 硬盘 空间 ， 以 及 更 
长 的 训练 时 间 。 

每 年 的 比赛 流程 大 体 为 : 

っ 发 布 训练 数据 集 (图 像 + 标注 )。 

2 发 布 测 试 数据 集 ( 仅 图 像 ， 标 注 隐 藏 )。 

2 参赛 者 在 训练 数据 集 上 训练 模型 。 

D 以 文本 文件 形式 提交 测试 集 上 的 预测 结果 。 

O 组 委 会 评估 各 个 参赛 者 提交 的 结果 ， 公 布 排名 ， 开 研讨 会 。 

下 面 我 们 逐一 介绍 ILSVRC 的 具体 比赛 项 目 。 
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18.2.1 图 像 分 类 (CLS) 


图 像 分 类 (CLS) 任务 在 2010—2014 年 的 ILSVRC 比赛 中 为 独立 任务 ， 而 从 2015 年 比赛 

开始 该 任务 与 目标 定位 (LOC) 任务 合并 。 

在 该 任务 中 , 算法 输入 为 一 张 图 片 , 输出 为 该 图 片 中 可 能 存在 的 物体 类 别 信 息 。 使 用 Top-5 
评估 方式 时 ， 输 出 $ 个 预测 类 别 信息 ， 只 要 真实 类 别 在 其 中 就 算 正确 分 类 ， 否 则 记 错 误 分 类 。 
对 全 部 100 000 张 评测 集 图 片 统计 错误 分 类 样本 数目 ， 计 算 错误 率 。 图 18-2 显示 了 2010—2015 
年 图 像 分 类 任务 错误 率 情 况 。 


Classification 








Classification error 





2010 2011 2012 2013 2014 2015 
ILSVRC year 


图 18-2 ”2010 一 2015 年 分 类 任务 错误 率 情 况 
18.2.2 目标 定位 (LOC) 


目标 定位 (LOC) 任务 从 2011 年 井 始 登 上 舞台 , 到 2015 年 与 CLS 任务 合并 为 CLS-LOC。 
该 任务 的 目的 是 评估 算法 能 学 习 目 标 物 体 特征 而 不 是 背景 。 


单 目标 定位 任务 的 数据 与 CLS 任务 包含 相同 的 照片 ， 手 动 标注 图 片 中 是 耕 存 在 1000 个 物 
体 类 别 之 一 的 实例 。 每 张 图 片 包括 一 个 真实 标签 。 该 类 别 的 每 个 实例 都 标注 了 边界 框 。 

对 于 每 张 图 片 ， 算 法 应 产生 一 系列 图 像 中 存在 的 物体 类 别 以 及 对 齐 的 边界 框 用 于 指示 物体 
位 置 和 尺度 ， 每 个 边界 框 中 只 能 包含 一 个 物体 实例 。 根 据 物 体 类 别 标签 和 真实 标签 的 最 佳 匹配 
程度 评估 标签 质量 ， 另 外 需要 保证 预测 的 实例 位 置 也 是 正确 的 。 图 18-3 显示 了 2011 一 2015 年 
目标 定位 任务 错误 率 情 况 。 
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Localization error 








图 18-3”2011 一 2015 年 目标 定位 任务 错误 率 情况 
18.2.3 目标 检测 (DET) 
目标 检测 (DET) 任务 在 单 物体 定位 (LOC) 任务 的 基础 上 更 进一步 ， 用 于 在 图 片 中 定位 
多 个 类 别 物体 。 


该 任务 是 PASCAL VOC 的 一 部 分 , 包含 200 个 物体 类 别 和 数 万 张 照片 。 对 每 张 图 片 ， 算 法 
产生 边界 框 ， 指 示 所 有 目标 类 别 的 所 有 实例 的 位 置 和 尺度 。 标 签 质量 使 用 两 种 方式 评估 : 検出 
目标 物体 实例 数 和 检 出 精度 ， 或 者 算法 产生 的 虚假 检测 数 。 图 18-4 显示 了 2013 一 2015 年 目标 
检测 任务 平均 准确 率 。 
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图 18-4 2013 一 2015 年 目标 检测 任务 平均 准确 率 


wwaibbt.com DODOODDOD 


322 REF: 21 天 实战 Caffe 


18.2.4 视频 目标 检测 ( VID ) 


ImageNet 视频 目标 检测 (VID) 任务 是 2015 年 引入 的 尝鲜 赛 ， 类 似 于 从 静态 图 像 中 进行 目 
标 检测 (DET) 任务 。 该 任务 的 数据 集 包 括 30 个 类 别 ， 是 DET 任务 200 个 类 别 的 子 集 。 


每 个 视频 片段 的 所 有 帧 、 所 有 类 别 物体 都 完全 标注 。 这 些 类 别 都 是 精心 选择 的 ， 考 虑 到 不 
同 因素 ， 如 运动 类 型 、 视 频 背景 干扰 、 平 均 目 标 数目 等 。 对 每 个 视频 片段 ， 算 法 需要 产生 一 组 
醒 注 信息 (7, の), 表示 第 fii. FB ci 个 类 别 、 置 信和 度 s 和 边界 框 六。 评估 准则 和 DET 任务 相 
同 ， 该 集合 每 帧 都 包含 30 个 目标 类 别 中 的 某 个 实例 。 评 估 准 则 和 目标 检测 任务 相同 ,未 标记 的 
目标 将 被 惩罚 ， 重 复 检测 也 会 被 惩罚 。 在 大 多 数目 标 类 别 中 获得 最 高 准确 率 的 将 会 胜出 。 


使 用 常规 的 平均 准确 率 (mean Average Precision, mAP) 在 所 有 类 别 上 平均 作为 评估 准则 。 
18.2.5 ”场景 分 类 


场景 分 类 任务 也 是 2015 年 引入 的 尝鲜 赛 ， 由 MIT Places 研究 组 组 织 。 该 任务 的 目的 是 识 
别 照片 中 描述 的 场景 类 别 ， 数 据 来 源 于 Places2 数据 集 ( 共 包括 1000 多 万 张 图 像 ， 属 于 401 个 
场景 类 别 )。 特 别 地 ， 比 赛 数据 分 为 810 万 张 训练 图 像 、2 万 张 验证 图 像 和 38.1 万 张 测试 图 像 ， 
均 属 于 401 个 场景 类 别 。 注 意 不 同类 别 的 图 像 分 布 不 均匀 CM 4000 张 到 30000 张 不 等 )， 正 如 
这 些 场景 在 现实 中 出 现 的 频率 一 样 。 


对 于 每 张 图 片 ， 算 法 应 产生 5 个 场景 类 别 〈 按 照 置 信 率 降序 排列 ) 的 列表 ， 标 签 质 量 将 使 
用 图 片 最 佳 匹配 真实 标签 评估 。 人 允许 一 个 算法 对 一 张 图 片 识 别 多 个 场景 类 别 ， 因 为 很 多 环境 有 
多 个 标签 (一 个 酒吧 也 是 一 个 餐馆 ), 人 们 也 常常 用 不 同 的 词语 描述 同一 个 地 方 (如 森林 、 树 从 )。 
对 于 每 张 图 片 ， 算 法 产生 5 个 标签 小 广 1.2.3.4.5， 该 图 片 的 真实 标签 是 gy, だ 1.… ヵ 。 其 中 n 
为 场景 类 别 数 。 该 算法 的 错误 率 为 : 
‘Dminjd(lj, gi) 


1 
e=— 
n k 


其 中 : 


dey) f. my 


l,others 
总 偏差 是 针对 整个 测试 集 图 片 计算 平均 偏差 。 目 前 比赛 版 本 n=1， 即 每 张 图 片 只 有 一 个 真 
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y 


实 标签 。 
图 18-5 显示 了 场景 分 类 错误 率 情 况 。 


Scene recognition error (top-5) 











03 
25 teams 
0.2 58 submissions 
- 
0 
AlexNet VGG16 ILSVRC 2015 


(ILSVRC 2012) (ILSVRC 2014) 


图 18-5 场景 分 类 错误 率 情况 
183 Caffe ILSVRC 实践 


假设 已 经 下 载 了 ImageNet 训练 数据 和 验证 数据 B， 它 们 存放 在 硬盘 上 ， 就 像 下 面 这 样 ， 


/path/to/imagenet/train/n01440764/n01440764 10026.JPEG 
/path/to/imagenet/val/ILSVRC2012 val 00000001.JPEG 


在 Caffe 源码 框架 的 datayilsvrc12/ 下 运行 脚本 来 获取 用 于 训练 的 额外 数据 : 


$ ./get ilsvrc aux.sh 

Downloading... 

--2015-10-17 04:03:19-- http://dl.caffe.berkeleyvision.org/caffe ilsvrcl2.tar.gz 
Resolving dl.caffe.berkeleyvision.org (dl.caffe.berkeleyvision.org)... 169.229.222.251 


Connecting to dl.caffe.berkeleyvision.org (dl.caffe.berkeleyvision.org)| 
169.229.222.251|:80... connected. i 


HTTP request sent, awaiting response... 200 OK 
Length: 17858008 (17M) [application/octet-stream] 


Saving to: 'caffe ilsvrcl2.tar.gz' 
1 0.0 [ニニ ーー ニー ニテ ーー ニー ニニ ーー ニー ニニ ーー ニー ニニ ーー ニーーー ニ ーー ニニ ニニ = ラ >] 17,858,008 75.8KB/s in 3m Os 


2015-10-17 04:06:20 (96.6 KB/s) - 'caffe ilsvrcl2.tar.gz' saved [17858008/17858008] 
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Unzipping... 
Done. 


$ tree 


ーー det synset words.txt 

ーー get ilsvrc aux.sh 

ーー imagenet.bet.pickle 

-- imagenet mean.binaryproto 
|-- Synsets. txt 

ーー synset words.txt 


[== test.txt 





ーー train.txt 


"== val. Ext 


0 directories, 9 files 


其 中 ， 训 练 和 验证 输入 分 别 在 train.txt 和 val.txt 中 描述 ， 它 们 以 文本 方式 列 出 了 所 有 文件 
及 其 对 应 的 标签 。synset_ words.txt 中 记录 了 synset/name 映射 关系 。 在 examples/imagenet/create_ 
imagenet.sh 中 ， 设 置 正 确 的 原始 图 像 数据 路 径 ， 设 置 RESIZE=true 将 所 有 图 像 缩 放 到 256x256. 
设置 正确 后 ， 在 Caffe 源码 根 目 录 下 执行 ./examples/imagenet/create imagenetsh， 将 原始 图 像 转 
换 为 LMDB。 


./examples/imagenet/create imagenet.sh 

Creating train lmdb... 

10301 13:37:40.202742 22009 convert imageset.cpp:83] Shuffling data 

10301 13:37:41.517595 22009 convert imageset.cpp:86] A total of 1281167 images. 


10301 13:37:41.518643 22009 db_imdb.cpp: 38] Opened imdb examples/imagenet/ 
ilsvrcl2 train lmdb L 


I0301 13:38:15.292979 22009 convert imageset.cpp:144] Processed 1000 files. 
^^10301 13:38:47.676054 22009 convert imageset.cpp:144] Processed 2000 files. 
I0301 13:39:18.747720 22009 convert imageset.cpp:144] Processed 3000 files. 
Kf ose 预计 需要 10 个 小 时 左右 才能 完成 


根据 硬件 情况 不 同 ，ILSVRC 2012 的 训练 、 验 证 数据 转换 过 程 大 约 需 要 几 个 小 时 到 十 几 个 
小 时 不 等 。 

接 下 来 需要 计算 图 像 均值 ，CNN 模型 需要 从 每 张 输入 图 片 中 减 去 图 像 均值 ， 所 以 需要 预先 
计算 图 像 均 值 。tools/compute_ image mean.cpp 实现 了 该 功能 。 这 也 是 一 个 很 好 的 用 来 熟悉 怎样 
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操作 多 个 模块 (ProtoBuffer、LEVELDB、GLOG 等 ) 的 例子 。 计 算 均 值 可 直接 在 Caffe 根 目录 
下 运行 脚本 : 
./examples/imagenet/make imagenet mean.sh 

生成 的 图 像 均值 位 于 data/ilsvrc12/imagenet mean.binaryproto 中 。 

数据 已 经 就 绪 ， 模 型 选择 参考 实现 models/bvle reference caffenet/train val.prototxt。 

train 和 test 模型 只 有 输入 、 输 出 层 是 不 同 的 : 


> 输入 层 一 一 训练 网 络 数 据 输入 层 从 ilsvrc12 train leveldb 中 获取 数据 ， 并 对 输入 图 像 采 
取 随 机 镜像 反 转 操作 ; 而 测试 网 络 从 ilsvrc12 val leveldb 中 获取 数据 ， 并 不 会 对 输入 图 
像 做 随机 镜像 操作 。 


O 输出 层 一 一 都 使 用 softmax loss 层 , 训 练 阶 段 用 于 计算 loss 函数 并 初始 化 反 向 传播 过 程 ， 
而 验证 阶段 直接 打印 输出 loss; 测试 网 络 还 有 额外 的 accurancy 层 ， 用 于 报告 当前 网 络 
在 验证 集 上 的 预测 准确 率 。 在 训练 阶段 ， 测 试 网 络 隅 一 段 时 间 发 起 并 做 一 次 测试 ， 输 出 
Test score #0: xxx 和 Test score #1: XXX。 在 这 里 score 0 是 准确 率 (未 训练 网 络 从 
1/1000=0.001 开始 )，socre 1 是 loss (未 训练 网 络 从 7 开始 )。 


求解 器 参数 在 models/bvle reference caffenet/solver.prototxt 中 。 


训练 ImageNet: 
./build/tools/caffe train \ 
--solver-models/bvlc reference caffenet/solver.prototxt 

(E K40 机 器 上 ， 每 20 个 批量 数据 (批量 大 小 为 256) 过 网 络 时 间 为 26.5s CK20 需要 36s), 
所 以 训练 阶段 每 张 图 片 过 网 络 时 间 大 约 为 5.2ms， 这 是 完整 的 前 向 + 后 向 所 需 时 间 。 对 于 只 有 前 
向 的 情况 ， 每 张 图 片 过 网 络 时 间 大 约 为 2ms。 

计时 : 


./build/tools/caffe time \ 


--model-models/bvlc reference caffenet/train val.prototxt 


从 上 一 个 快照 处 继续 训练 : 


./build/tools/caffe train \ 
--solver=models/bvlc_ reference caffenet/solver.prototxtN 


--snapshot-models/bvlc reference caffenet/caffenet train 10000.solverstate 
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在 caffenet train 10000.solverstate 中 存储 了 所 有 必需 的 信息 来 恢复 训练 (包括 学 习 速率 、 遗 
蕊 因子 等 训练 参数 和 历史 权 值 更 新 值 )。 


掌握 今天 的 学 习 内 容 ， 读 者 若 对 该 类 比赛 感 兴趣 ， 则 可 以 试 着 个 人 或 组 队 报名 ， 通 过 实战 
提升 自身 水 平 ， 与 世界 上 更 多 的 深度 学 习 爱 好 者 同 台 竞技 ， 学 习 到 的 内 容 会 更 多 。 全 身心 投入 
比赛 中 ， 有 一 个 既定 目标 ， 能 激发 你 更 多 的 创造 性 想法 。 


18.4 AYE 


1. 将 自己 手机 中 的 照片 做 成 训练 /测试 数据 集 ， 需 要 哪些 工作 ? 


2. Google. Apple, Microsoft, Amazon. BAT 等 互联 网 公司 如 何 获 取 业 务 相 关 的 大 规模 图 
像 数 据 ? 


3. 在 ImageNet 上 训练 收敛 的 模型 ， 能 否 直接 用 于 真实 世界 的 图 像 分 类 或 目标 识别 ? 


18.5 参考 資料 


[1] ImageNet Large Scale Visual Recognition Challenge, arXiv:1409.0575v3 
[2] The PASCAL Visual Object Classes (VOC) Challenge. IJCV 2010 

[3] 历年 ILSVRC 数据 集 下 载 链接 : 
http://image-net.org/challenges/LSVRC/2015/download-images-3j16.php 
http://image-net.org/challenges/LS VRC/2014/download-images-5jj5.php 
http://www.image-net.org/challenges/LS VRC/2013/download-images-rpa 
http://www. image-net.org/challenges/LSVRC/2012/nonpub-downloads 
http://www.image-net.org/challenges/ LSVRC/201 l/registered-downloads 


http://www.image-net.org/challenges/LSVRC/2010/download-all-nonpub 
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俗话 说 一 一 学 而 不 思 成 树 袋 ， 思 而 不 学 变 民 科 。 听 了 很 多 大 道理 ， 仍 然 过 不 好 这 一 生 。 
今天 从 实际 业务 : 图 像 、 文 本 、 视 频 、 艺 术 作 品 出 发 ， 重 新 审视 深度 学 习 是 否 如 同 传说 中 那么 
强大 。 


19.1 ”图像 分 类 


本 节 我 们 先 回 顾 一 下 计算 机 视觉 领域 中 图 像 分 类 这 个 老 问 题 (我 们 熟悉 的 MNIST、 
CIFAR10、ImageNet 等 例 程 全 都 属于 该 类 问题 )。 图像 分 类 问题 看 似 简 单 ， 却 是 计算 机 视觉 领域 
的 一 个 核心 问题 ,具有 大 量 实际 应 用 案例 。 很 多 典型 的 计算 机 视觉 问题 (如 物体 检测 、 图 像 分 
割 ) 可 以 退化 为 图 像 分 类 问题 站。 











19.1.1 问题 描述 


图 像 分 类 ， 给 定 一 张 输入 图 像 ， 让 机 器 判断 它 属于 某 固定 类 别 集合 中 的 具体 哪 一 类 。 假 设 
给 5 次 猜测 机 会 ， 只 要 5 次 中 有 一 次 猜 对 ， 就 认为 机 器 的 判断 是 正确 的 ， 称 为 Top-5 判 据 。 从 
图 像 分 类 问题 入 手 ， 符 合 “ 先 说 是 不 是 ， 青 问 为 什么 ”的 优良 传统 。 











图 像 分 类 问题 虽然 已 经 有 大 量 研究 ， 但 是 仍然 有 很 多 难点 需要 解决 ， 主 要 有 : 


观测 角度 变化 ， 相 机 相对 一 个 观测 物体 改变 角度 时 , 会 引起 图 像 像 素 值 剧烈 变化 ( 见 图 
19-1). 


O 光照 条 件 变化 ， 显 然 对 于 某 一 场景 ， 有 光 和 无 光 时 图 像 像素 值 差异 巨大 〈 见 图 19-2)。 
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图 19-1 同一 目标 不 同 观测 角度 的 图 像 











92 同 Ja SAS GI Fit 


物体 自身 形 変 , (BE RON AST EIA, ERRER BEE CLR 19-3). 





图 19-3 ”同一 类 别 物体 不 同形 态 的 图 像 


物体 部 分 谈 挡 ， 被 观测 物体 可 能 被 谈 广 一部分， 有 了 时 具有 很 小 部 分 可 见 《 见 图 19-4). 
> 背景 杂 波 影响 ， 被 观测 物体 可 能 与 周 半 环境 副 为 一 体 ， 难 以 分 匆 5 见 图 19-5). 
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图 19-4 Er 





当 的 目标 图 像 





119-5 有 背景 杂 波 影响 的 图 像 


o 类 内 差异 , 被 观测 物体 的 同一 类 物体 差异 可 能 很 大 ,“ 龙 生 九 子 , 子 子 不 同 ”( 见 图 19-6). 





图 19-6 类 内 差距 明显 的 图 像 
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以 上 几 种 情况 都 会 导致 被 观测 物体 的 计算 机 表示 《二 维 或 三 维 数值 数组 ) 发 生 剧 烈 变化 。 
一 个 良好 的 图 像 分 类 模型 应 当 对 上 述 情况 (以 及 不 同情 况 的 组 合 ) 不 敏感 ， 这 是 一 个 极 具 挑战 
性 的 任务 。 在 深度 学 习 出 现 之 前 ， 没 有 很 好 的 解决 方法 。 使 用 深度 学 习 尤 其 是 深度 郑 积 神经 网 
络 ， 用 大 量 图 像 数据 进行 训练 后 可 以 处 理 十 分 复杂 的 分 类 问题 。 我 们 来 看 一 个 具体 应 用 案例 。 

















19.1.2 ”应 用 案例 一 一 商品 分 类 ” 





女装 作为 淘宝 和 天 猫 平 台 的 一 大 类 目 有 其 自身 特色 ， 买 家 和 卖家 更 多 的 依赖 图 像 去 描述 和 
选择 商品 ， 因 此 对 女装 图 像 分 析 有 着 实际 的 应 用 价值 。 其 中 类 目 预测 是 一 个 重要 的 功能 ， 如 
图 19-7 所 示 ， 其 过 程 是 用 户 上 传 一 幅 服 饰 类 图 像 ， 系 统 目 动 识别 出 服饰 主体 ， 并 判别 其 所 属 的 
AH. 























图 19-7 女装 类 目 识别 
在 我 们 的 试验 中 ， 使 用 110 万 张 淘宝 女装 图 像 作为 训练 数据 ， 以 及 5 万 个 验证 集 数据 和 42 
万 个 测试 集 数据 。 淘 宝 女 闭 线 上 数据 履 盖 27 个 二 级 类 目 ， 部 分 类 目 重 县 较 多 ， 因 此 对 其 进行 合 
并 ， 最 终 分 成 17 SRA, GREK. FG. WET. BA. AGGRO, 如 表 19-1 所 示 。 





表 19-1 用 于 试验 的 淘宝 女装 





裤子 、 牛 仔裤 

连衣裙 

毛衣 、 毛 针织 衫 

EK, MHSR 

职业 套装 /学 生 校 服 /工作 制服 
大 但 女 装 、 中 老年 女装 
风衣 

半身 祖 
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婚纱 /礼服 /旗袍 
唐装 /民族 服装 /舞台 服装 
Ket. TRR 











皮衣 、 皮 草 





外 套 、 短 外 套 、 毛 呢 外 套 











REL. Hus 








采用 基于 深度 学 习 的 图 像 分 类 方法 训练 女装 分 类 的 模型 , 主要 过 程 包括 : 训练 图 像 预 处 理 ， 
数据 平衡 化 处 理 , 使 用 一 个 AlexNet 改进 版 网 络 结构 在 一 块 Tesla K20 GPU 上 经 过 大 约 6 天 的 
训练 ， 类 目 预 测 模型 在 校 验 图 像 数 据 集 上 收敛 到 了 86% 的 准确 度 。 为 了 测试 该 模型 在 实际 使 用 中 
的 表现 ， 使 用 一 个 与 训练 集 不 同 的 和 2 万 张 淘宝 女装 图 像 作为 测试 集 。 测 试 结果 如 表 19-2 所 示 。 





表 19-2 分 类 结果 
评估 方法 
Top-1 HEMA 87.418196 











Top-2 准确 率 96.2241% 








Top-3 MEM 98.432994 


在 相同 有 数据 集 上 ， 我 们 现在 获得 的 Top-1 准确 率 较 之 前 开发 的 基于 local feature + BOW 
的 传统 算法 ， 有 较 大 的 提高 。 经 过 测试 ， 我 们 的 算法 对 网 上 图 和 实 拍 图 都 有 不 错 的 识别 效果 。 
图 19-8 给 出 了 两 个 预测 结果 示例 。 l 


本 文摘 选 自 阿 里 巴巴 ATA 博客 。 希望 读 者 能 借鉴 其 中 思路 ， 利 用 已 有 的 CNN 模型 对 自己 
收集 的 图 像 数据 进行 分 类 、 预 测 ， 开 发 出 更 多 好 玩 的 应 用 。 笔 者 能 想到 的 有 : 


2 车 辆 型 号 识别 ， 用 手机 对 路 上 某 辆 车 进行 拍照 ， 直 接 报告 相应 车 辆 品牌 名 、 市 场 价 。 
O 树叶 、 花 开 识 别 ， 拍 照 直 接 告 诉 你 这 是 什么 树 ， 那 是 什么 伦 ， 对 于 很 多 树 痴 、 花 痢 非 常 
HH. 
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PHS OO | HkM | 




















预测 结果 | RA: XE HI. 79.68% D 1 WSCA. 78.54 | 
AAA qe SRE, 9.38 | Me ROCA PE CE. 18.2306 
la | (TH, 2.8955 ^ _ XEKH 1314 
图 19=8 预测 结果 
> 食物 识别 ， 对 朋友 图 省 些 旺 美食 的 来 一 波 致 命 打击 ， 告诉 他 们 这 个 有 和 多少 热量 , 需要 跑 


£'b R8 A BE ESE HE 


2 aM. FAM. TYR, A FASTER. NN. Sh ACE b 


Q 
M, 


交通 标志 识别 ， 这 个 数据 可 以 从 驾校 参考 书 中 获得 ， 用 于 自动 驾驶 汽车 。 
19.22 图 像 中 的 字符 识别 


19.2.1 问题 描述 


光学 字符 识别 (Optical Character Recognition, OCR) 是 指 对 文本 资料 的 图 像 文 件 进行 分 析 
识别 处 理 ， 获 取 文 字 及 版 面 信息 的 过 程 。 例 如 ， 有 几 手 机 拍 下 一 些 文字 信息 (可 能 是 上 课 老 师 黑 
板 上 的 文字 或 图 书馆 一 本 书 的 内 容 ) 保 存 为 图 片 ,将 图 片 转换 为 文本 文件 就 需要 使 用 OCR BOR. 
OCR 的 目的 是 把 图 像 中 的 文字 识别 出 来 ， 以 使 让 计算 机 进一步 利用 。 


OCR 并 不 是 一 项 新 技术 , 最 早 用 模板 匹配 来 进行 数字 和 英文 字母 识别 的 专利 可 追溯 至 1929 
年 ， 而 汉字 识别 则 始 于 20 世纪 60 年 代 。 OCR 算法 技术 ， 可 以 分 为 两 个 发 展 阶段 : 基于 传统 方 
法 和 基于 深度 学 习 方 法 。 深 上 度 学 习 应 用 于 OCR 大 大 提高 了 OCR 的 识别 性 能 ， 但 在 OCR 识别 
流程 中 ， 深 度 学 习 还 不 能 完全 代替 传统 方法 ， 如 中 文 的 文本 检测 、 切 分 等 模块 。 深 度 学 习 虽 然 
有 识别 率 高 、 泛 化 能 力 强 等 优点 ， 但 在 实际 研发 和 应 用 中 ， 其 缺点 也 是 明显 的 ， 一 是 解码 速度 
慢 ; 二 是 需要 的 训练 样本 多 。 
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19.2.2 ”应 用 案例 一 一 身份 证 实名 认证 ” 


备 (扫描 仪 、 数 码 相 机 、 手 机 等 ) 的 飞速 发 展 ，OCR 也 获得 了 广泛 的 应 用 。 例 如 ，2010 年 第 六 
届 全 国人 口 普查 就 使 用 OCR 技术 对 约 8 亿 份 表单 进行 了 日 动 信息 录入 的 操作 , 极 大 地 降低 了 人 
DMA. 近年 来 , OCR 更 加 受到 工业 界 的 关注 ， 例 如 Google 和 百度 利用 深度 学 习 技术 ， 研 发 
了 自然 场景 文字 识别 技术 ， 能 够 自动 检测 并 识别 出 图 片 中 的 文字 信息 。 
身份 证 实名 认证 是 OCR 领域 中 的 一 个 具体 应 用 ,由 于 三代 身份 证 是 全 国 统一 的 ,格式 单一 、 

字体 固定 、 字 符 间距 固定 ， 所 以 ， 在 算法 上 ， 是 OCR 中 相对 简单 的 一 种 ， 可 以 通过 结合 先 验 知 
识 ， 把 识别 率 做 得 很 高 。 身 份 证 OCR 识别 流程 如 图 19-9 所 示 。 为 了 保证 高 识别 率 和 高 速度 ， 
我 们 的 设计 思路 同时 融合 了 传统 算法 和 深度 学习 算 法 。 

] 

l 
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1， 外 边框 检测 
由 于 身份 证 在 图 像 中 的 占 比 和 位 置 不 定 ， 为 了 使 接 下 来 的 处 理 更 加 精准 ， 首 先 需 要 定位 身 
份 证 的 外 边框 位 置 。 这 样 ， 接 下 来 的 处 理 只 集中 于 映 份 证 图 像 本 身 , 而 排除 背景 图 像 干扰 。 


O 算法 /模型 : 基于 CNN ( 卷 积 神经 网 络 ， 一 种 深度 学 习 网 络 ) 的 外 边框 定位 
O 训练 图 像样 本 :5 万 张 左右 
O 定位 准确 度 : 99.9096 


O 速度 : 平均 25ms/image 
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2.， 正 反面 及 方向 判断 和 修正 

虽然 实 人 认证 系统 界面 提示 用 户 把 身份 证 正 反面 要 分 开 上 传 ， 但 总 有 用 户 不 按 要 求 做 ， 导 
致 正 反 面 放 反 的 情况 时 有 发 生 。 同 时 ， 证 件 在 图 像 中 也 可 能 是 倒 着 的 或 旋转 90 的 ， 甚 至 是 斜 
着 放 署 的 。 所 以 ， 这 里 对 这 些 情 况 进 行 自 动 判 断 〈 正 反面 、 放 置 方向 )。 

っ 算法 /模型 : 基于 CNN 的 正 反 面 及 方向 判断 ， 并 根据 结果 进行 正 有 反面 分 类 和 方向 修正 

O 训练 图 像样 本 : 10 万 张 左右 

O 定位 准确 度 : 99.82% 以 上 

O 速度 : 平均 30ms/image 

3. 条目 检测 

身份 证 识别 的 条 目 包括 正面 的 姓名 、 身 份 证 号 、 地 址 和 背面 的 有 效 期 。 其 中 地 址 的 检测 还 
包括 行 的 检测 ， 因 为 地 址 可 能 包括 一 行 或 多 行 。 条 目 检 测 过 程 实际 上 包括 文本 / 非 文 本 的 判断 和 
文本 的 定位 两 个 过 程 。 文 本 的 检测 是 OCR 领域 中 一 个 比较 困难 的 问题 。 不过， 由 于 身份 证 是 一 
个 垂直 领域 ， 有 很 多 先 验 知识 可 以 利用 ， 所 以 ， 变 得 相对 简单 很 多 。 在 实际 输入 中 ， 大 多 数 图 
像 都 比较 清晰 可 辨 ， 用 传统 的 方法 就 能 检测 得 很 好 。 传 统 方法 最 大 的 优点 是 速度 快 ， 并 且 需 要 
用 来 训练 的 样本 数据 很 少 , 但 对 于 比较 模糊 或 反光 或 不 全 的 图 像 ， 传 统 方法 往往 就 无 能 为 力 了 。 
这 时 ， 需 要 融合 深度 学 习 方法 ， 利 用 CNN 强大 的 学 习 和 泛 化 能 力 就 可 以 很 好 地 解决 。 

O 基于 传统 算法 的 条 目 检测 : 检测 过 程 是 图 像 归 一 化 一 二 值 化 一 连通 域 分 析 一 字符 块 / 非 

字符 块 判定 一 基于 规则 的 条 目 定位 一 地 址 行 切 分 
O 基于 深度 学 习 (CNN) 的 条 目 检测 : 对 正 反 面条 目 分 别 训练 检测 模型 ， 训 练 图 像样 本 
20 万 张 左 右 

O 检测 精度 ，99.89% 

O 速度 : 背面 平均 266ms/image; 正面 135ms/image 

4. 字符 的 切 分 和 识别 


字符 的 切 分 和 识别 是 身份 证 OCR 中 最 重要 的 算法 模块 之 一 。 同样 ， 对 于 清晰 、 对 比 度 好 的 
图 像 ， 用 传统 算法 就 可 以 切 分 /识别 得 很 好 ， 但 对 于 模糊 、 反 光 、 变 形 的 图 像 ， 深 度 学 习 算 法 明 
显 更 胜 一 筹 。 并 且 ， 对 于 切 分 正确 的 单字 符 识别 ， 基 于 深度 学 习 (CNN) 模型 的 方法 好 于 基于 
模板 字符 内 核 的 方法 。 当 然 ， 前 者 速度 明显 慢 于 后 者 。 考 虑 到 身份 证 的 字符 较 少 ， 每 个 字符 速 
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度 慢 一 些 ， 影 响 不 大 ， 所 以 ，OCR 字符 识别 采用 了 基于 CNN 的 识别 模型 。 


》 基 于 传统 算法 的 字符 切 分 : 字符 切 分 过 程 是 条 目 区 域 一 值 化 一 连通 域 分 析 与 过 滤 一 切 分 
结果 


O 基于 深度 学 习 (CNN) 算法 的 学 符 切 分 /识别 :对 汉字 和 数字 分 别 训练 切 分 和 识别 模型 


e 深度 学 习 包括 的 字符 集 : 共 5454 个 字符 。 通过 对 2000 万 个 身份 证 地 址 和 姓名 进行 统 
计 ，5454 ^E PE RT TG i Ah UC [I] 99.9938% 


。 训练 单字 符 样本 数 ，1 亿 左 右 


e 识别 速度 : 汉字 平均 3ms/ 字 符 , 数 字 和 英文 平均 lms/ 字 符 


基于 传统 算法 和 深度 学 习 (CNN) ) 算法 的 字符 切 分 /识别 有 机 融合 后 ， 引 擎 具备 了 十 
分 强大 的 识别 和 泛 化 能 力 。 


5. 后 处 理 
(1) 姓名 识别 的 后 处 理 


主要 处 理 把 识别 结果 中 出 现 的 一 些 繁体 汉字 和 非常 见 汉字 映射 为 常见 的 姓名 汉字 ， 以 及 对 
一 些 非 姓 汉字 的 映射 。 


(2) 有 效 期 识别 的 后 处 理 


利用 有 效 期 起 始 日 期 的 识别 结果 ， 对 截止 日 期 识别 结果 中 部 分 缺失 数字 进行 补 齐 、 部 分 错 
误 数 字 进 行 纠正 ， 以 及 对 一 些 特殊 位 的 数字 进行 映射 。 

(3) 身份 证 号 识别 的 后 处 理 

18 位 身份 证 号 是 有 固定 格式 的 ， 如 : 前 6 位 是 行政 区 划 码 ， 接 着 的 8 位 是 出 生日 期 。 身 份 
证 地 址 识别 出 来 后 ， 能 解析 出 地 址 对 应 的 6 位 行政 区 划 码 ， 这 样 就 能 对 身份 证 号 碍 的 前 6 位 进 
行 校正 了 。 出 生日 期 的 8 位 数字 是 有 一 定 规律 的 ， 也 能 利用 识别 结果 的 候选 和 置信 度 进行 一 定 
程度 的 修正 。 

(4) 地 址 识别 的 后 处 理 

首先 ， 建 立 中 国 的 地 址 信息 库 ， 对 置信 度 不 高 的 识别 结果 进行 替换 修正 ， 其 次 ， 实 人 认证 
eee Ue to 日 需要 是 最 新 的 行政 区 划 ， 包 括 省 、 
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市 、 县 〈 区 ) 三 级 ， 而 身份 证 上 的 地 址 信息 往往 是 有 部 分 缺失 的 ， 这 样 ，OCR 引擎 需要 从 地 址 
的 识别 结果 中 恢复 所 缺失 的 行政 区 划 。 对 应 的 算法 是 依据 国家 统计 局 的 新 旧 行政 区 划 表 来 设计 
完成 的 。 


e. 结论 与 展望 
通过 上 述 步骤 对 一 些 典型 的 身份 证 数据 进行 识别 ， 结 果 如 图 19-10 和 图 19-11 所 示 。 


mes raion 
ce 


图 像 文字 小 ， 可 正确 识别 ! 





图 像 形变 ， 可 正确 识别 ! 


- 






图 像 灰 暗 ， 可 正确 识别 ! 图 像 有 反光 ， 可 正确 识别 ! 


图 19-10 ”可 正确 识别 的 正面 图 例 


有 效 期 识别 


ne, 





图 像 文字 模糊 ,可 正确 识别 ! 


图 像 被 颅 斜 ， 可 正确 识别 ! 





| GIA. ae Bice ne 0 Me Sth) , SERAS) | 
图 像 被 干扰 ,可 正确 识别 ! 


图 像 文 字 量 影 ,可 正确 识别 ! 


图 19-11 可 正确 识别 的 反面 图 例 
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本 而 介绍 的 方法 也 可 以 应 用 到 其 他 证 件 的 OCR WOH, (Ua PUE. TT SUE. ARR. 
护照 等 。 读 者 不 妨 利用 已 有 的 数据 和 模型 进行 尝试 。 


19.3 ”目标 检测 


19.3.1 问题 描述 


目标 检测 (Object Detection) 是 机 器 视觉 中 最 常见 的 问题 。 当 机 器 “ 睁 ” 开 双 眼看 世界 时 ， 
需要 判断 其 视野 内 存在 哪些 目标 、 分 别 是 什么 、 在 什么 位 置 。 机 器 接收 的 数据 来 源 可 能 为 静态 
图 像 (手机 相机 ) 或 视频 监控 摄像 头 )， 对 于 目标 检测 算法 而 言 咯 有 不 同 。 

近 两 年 来 ， 目 标 检 测算 法 的 性 能 不 断 提 升 ， 除 了 引入 强大 的 深度 神经 网 络 之 外 ， mb 
标 检测 框架 如 R-CNNMI 及 其 后 代 Fast R-CNNÜ HI Faster R-CNNIO 也 扮演 了 相当 重要 的 角色 。 
们 对 静态 图 像 是 非常 有 效 的 ， 但 这 些 框架 并 不 是 针对 视频 目标 检测 特别 设计 的 ， 没 有 Mete 
视频 的 时 域 和 上 下 文 信息 。 参 考 资料 [7] 中 提出 了 一 种 深度 学 习 框 架 下 CNN， 从 视频 中 获得 
tubelets 中 集成 了 时 域 和 上 下 文 信息 ， 显 车 改善 了 视频 中 目标 检测 性 能 ， 赢 得 了 ILSVRC 2015 
最 近 引 入 的 VID 任务 〈 只 用 提供 的 数据 ) Es 


19.3.2 最 佳 实践 一 一 运行 R-CNN 例 程 


运行 R-CNN 例 程 需要 配置 MatCaffe 环境 ， 上 有 具体 步骤 可 参考 16.2.2 节 。 


R-CNN 依赖 Caffe v0.999, 再 要 从 https://github.com/BVLC/caffe/archive/v0.999.tar.gz 下 载 并 
修改 Makefile.conffg、 编 译 ， 上 具体 步骤 请 参考 第 4 天 介绍 的 内 容 。 将 Caffe v0.999 所 在 目录 记 为 
$CAFFE_ROOT。 预 先 下 载 ImageNet 图 像 均 值 文件 : | 
$ cd SCAFFE ROOT/data/ilsvrcl2 && ./get ilsvrc aux.sh 

切换 到 另 一 个 工作 且 录 ， 获 取 R-CNN 源码 : 


git clone https://github.com/rbgirshick/rcnn.git 


添加 Caffe v0.999 到 R-CNN 工程 : 


in 


cdrcnn 


て ひけ 


ln -sf SCAFFE ROOT external/caffe 
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下 载 预先 训练 过 的 模型 : 


$ ./data/fetch models.sh 
Downloading precomputed R-CNN models (1.5G)... 
--2015-10-26 23:54:36-- http://www.cs.berkeley.edu/-rbg/r-cnn-releasel-data.tgz 


Resolving www.cs.berkeley.edu (www.cs.berkeley.edu)... 128.32.244.183 

Connecting to www.cs.berkeley.edu (www.cs.berkeley.edu)|128.32.244.183]|:80... 
connected. 

HTTP request sent, awaiting response... 200 OK 


Length: 1539453962 (1.4G) [application/x-tar] 


Saving to: 'y-cnn-releasel-data.tgz' 








100$[------—-————-———————————————————-----»] 1,539,453,962 632KB/s in 12m 45s 
2015-10-27 00:07:22 (1.92 MB/s) - 'r-enn-releasel-data.tgz' saved [1539453962/1539453962] 


Unzipping... 

caffe nets/ 

caffe nets/finetune voc 2007 trainval iter 70k 
caffe nets/finetune voc 2012 train iter 70k 
caffe nets/ilsvrc 2012 train iter 310k 

caffe nets/finetune ilsvrcl3 vall4trainlk iter 50000 
rcnn models/ 

rcnn models/voc 2012/ 

renn models/voc 2012/rcnn model finetuned.mat 
rcnn models/voc 2012/bbox regressor final.mat 
rcnn models/voc 2007/ 

rcnn models/voc 2007/rcnn model finetuned.mat 
rcnn models/voc 2007/bbox regressor final.mat 
rcnn models/ilsvrc2013/ 

rcnn models/ilsvrc2013/rcnn model.mat 

rcnn models/ilsvrc2013/bbox regressor final.mat 


Done. Please run this command again to verify that checksum - 
758aff9fa51d830be3281f91a8b03126. 


$ ./data/fetch selective search data.sh 
Downloading precomputed selective search boxes (1.8G)... 


==2015=10=27 12:49:18-- 
http://www.cs.berkeley.edu/-rbg/r-cnn-releasel-selective-search.tgz 


Resolving www.cs.berkeley.edu (www.cs.berkeley.edu)... 128.32.244.183 
Connecting to www.cs.berkeley.edu (www.cs.berkeley.edu)|128.32.244.183|:80... 
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connected. 
HTTP request sent, awaiting response... 200 OK 
Length: 1931878932 (1.8G) [application/x-tar] 


Saving to: à€'r-cnn-releasel-selective-search.tgzá€" 





100$[e22-2—----—-————--—-———-———--—- ======>] 1,931,878,932 119KB/s in 4h 48m 





2015-10-27 17:37:45 (109 KB/s) - 4€~r-cnn-releasel-selective-search.tgzae™ 
[1931878932/1931878932] 


Unzipping... . 

selective search data/ 

selective search data/voc 2012 test.mat 
selective search data/voc 2007 trainval.mat 
selective search data/voc 2007 test.mat 
selective search data/voc 2012 val.mat 
selective search data/voc 2012 train.mat 
selective search data/voc 2007 val.mat 
selective search data/voc 2007 train.mat 
selective search data/voc 2012 trainval.mat 
selective search data/ilsvrcl3 test.mat 
selective search data/ilsvrcl13 vali.mat 
selective search data/ilsvrcl3 val2.mat 


selective search data/ilsvrcl3 val.mat 


Done. Please run this command again to verify that checksum 


6cf6df219c1e514f64482f11d00bd0b4. 


运行 Matlab: 


$ matlab 


如果 提示 下載 Selective Search 源码 ， 则 按照 提示 下 载 。 


当 看 到 “R-CNN startup done ”并 弹出 Matlab 命令 提示 符 “>>” 上 时， 在 Matlab 中 运行 : 


>>renn_build() 
这 时 将 会 编译 liblinear 和 Selective Search。 如 果 编 译 器 有 警告 ， 可 以 忽略 。 


编译 结束 后 ， 验 证 Caffe 及 其 Matlab 包装 设置 没有 问题 : 


>>key = caffe('get init key'); 
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运行 Demo: 
>>renn_ demo 


经 过 一 段 时 间 后 〈 大 约 40 多 秒 )， 得 到 输出 如 图 19-12 所 示 。 


det #2: bicycle score = 0,439 





119-12 R-CNN Demo 输 出 


限于 篇 幅 ， 本 节 不 再 深入 。 读 者 可 以 进一步 阅读 参考 资料 [4] 及 R-CNN 工程 代码 ， 循 序 渐 
进 地 学 习 趾 iM， 挑战 目标 检测 这 个 世界 性 难题 ， 如 果 有 机 会 可 以 刷 刷 ILSVRC 比赛 。 


19.4 ”人 脸 识 别 | 


脸 识别 技术 的 研究 始 于 20 世纪 60 年 代 ， 是 近 些 年 来 计算 机 模式 识别 领域 中 一 个 非常 活 
a 究 课 题 ， 在 安 全 验证 系统 、 信和 ii FA 让 、 医学 信息 [ES ARE H \ 埋 、 Tu 频 会 m. ALAS ti. 
系统 公安 〈 罪 犯 识别 ) 等 方面 有 着 巨大 的 应 用 前 景 。 


19.4.1 问题 描述 


通俗 地 讲 ， 人 上 脸 识别 就 是 解决 “图 片 中 的 人 是 谁 ”的 问题 ， 它 主要 分 为 人 上 脸 验 证 (face 
verification) 和 人 脸 识 别 〈face identification) PIAS, EIDES Pre] 1:1 和 1 :4 的 问题 。 


人 脸 识 别 领域 最 著名 的 数据 集 是 LFW (Labeled Faces in the Wild， 带 标签 的 自然 人 脸 数据 
E) As Sets, Nein 大 学 艾 姆 赫 斯 特 学 院 创 建 。 


完整 的 带 标 签 的 自然 人 脸 数 据 库 可 以 作为 一 个 压缩 包 下 载 ， 解 压缩 后 ， 数 据 库 内 容 会 置 于 
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新 的 目录 lfw 中 。 总 共有 13233 张 JPEG 格式 图 片 ， 属 于 5749 个 不 同 的 人 ， 每 张 图 片 尺 寸 都 是 
250X250. 


人 脸 识别 技术 面临 很 多 挑战 ， 比 如 : 如 何 适 应 各 种 人 脸 姿 态 、 各 种 表情 、 年 龄 变化 、 人 种 、 
性 别 、 变 化 的 光线 、 分 辨 率 的 差别 、 图 像 退 化 、 遮 挡 (如 口罩 、 墨 镜 、 头 发 、 胡 须 ) 等 ， 传 统 
的 人 脸 识 别 技术 很 难 有 效 地 克服 这 些 因素 。 近 年 来 ， 深 度 学 习 在 大 规模 图 像 分 类 问题 上 取得 了 
长 足 的 进步 ， 基 于 深度 学 习 的 人 脸 识 别 研 究 不 断 刷新 LFW 排行 榜 ， 其 中 代表 性 工作 主要 有 
FaceBook 的 DeepFace、 香 港 中 文大 学 汤 晓 鸥 研究 组 的 DeepID2 以 及 国内 的 FACE++ 团 队 。 


人 脸 识别 技术 在 学 术 界 和 工业 界 吸引 了 越 来 越 多 的 研究 者 加 入 ， 而 最 新 的 LFW 数据 库 测 
试 结果 显示 ， 基 于 深度 学 习 的 人 脸 识 别 算法 (1:1) 已 经 达到 99.15% 的 准确 率 。 但 是 在 LFW HX 
得 的 指标 超过 人 类 的 结果 并 不 足以 说 明 技 术 真 正 实用 化 ， 在 一 个 特殊 集合 上 训练 得 到 的 模型 无 
法 很 好 地 推广 到 其 他 集合 ， 人 脸 识 别 技术 完全 实用 化 还 面临 很 多 挑战 。 


一 般 来 说 ， 人 脸 识 别 系 统 包括 图 像 获 取 、 人 脸 定 位 、 图 像 预 处 理 以 及 人 上 脸 识 别 身份 确认 
或 者 身份 查找 )， 如 图 19-13 所 示 。 












人 脸 关键 点 
检测 /人 脸 对 齐 












人 上 脸 检测 人 脸 预 处 理 


i5 
E 





特征 提取 / 降 维 


人 脸 匹配 











图 19-13 人 脸 识别 系统 框架 


系统 输入 一 般 是 一 张 或 者 一 系列 含有 未 确定 身份 的 人 脸 图 像 ， 以 及 人 脸 数 据 库 中 若干 已 知 
身份 的 人 脸 图 像 或 者 相应 的 人 脸 特征 编码 ， 而 其 输出 则 是 一 系列 相似 度 分 数 ， 表 明 待 识 别人 脸 
的 身份 。 

1， 人 脸 检测 

人 脸 检 测 主要 用 于 定位 图 像 中 的 人 脸 ， 如 果 一 张 图 片 有 多 个 人 ， 需 要 将 他 们 全 部 检 出 。 
Haar+Adaboost 是 一 种 比较 经 典 的 人 脸 检 测 框 架 , 但 其 在 实际 复杂 场景 中 的 检测 性 能 往往 并 不 


ww ai bbt. com [1 H1 B. D] D] HI 


342 深度 学 习 : 21 天 实战 Caffe 


2. 关键 点 定位 


关键 点 定位 主要 是 在 已 知人 脸 所 在 位 置 的 基础 上 , 用 于 自动 标注 人 脸 的 五 官位 置 , 如 眼睛 、 
段子 、 嘴 巴 等 位 置 。 传 统 的 基于 ASM (Active Shape Model), AAM (Active Appearance Model) 
的 关键 点 定位 方法 ， 并 不 能 很 好 地 处 理 大 角度 、 复 杂 光 照 和 夸张 表情 的 情况 。 


3. 特征 提取 / 降 维 


深度 学 习 网 络 结构 通过 对 海 量 的 互联 网 人 脸 进行 监督 学 习 ， 提 取出 对 姿态 、 光 照 等 干 
扰 因 素 鲁 棒 的 人 脸 特 征 。 一 般 来 说 ， 深 度 学 习 特 征 元 余 度 很 高 ， 需 要 对 其 做 进一步 的 降 维 处 理 
以 获得 更 加 紧凑 的 特征 。 传 统 的 PCA+LDA 方法 ， 害 要 假设 训练 样本 服从 多 元 高 斯 分 布 ， 当 实 
际 样本 分 布 条 件 不 满足 时 ， 需 要 一 些 经 验 性 的 参数 调 优 ， 不 适合 大 规模 人 脸 数 据 的 训练 。 在 实 
际 中 可 采用 基于 Pairwise 的 Metric Learning 降 维 方法 ， 通 过 减少 类 内 距离 ， 扩 大 类 间距 离 ， 效 
果 会 好 一 些 。 


19.4.2 ”最 佳 实践 一 一 使 用 Face++ SDK 实现 人 脸 检测 


Face++ SDK 是 国内 最 早 推出 的 人 有 验 识 别 公 共有 服务。 本 节 介 绍 如 何 利 用 该 SDK 实现 人 脸 关 
键 点 检测 。 


操作 步骤 如 下 ; 

O 注册 用 户 Chttp//www.faceplusplus.com/) . 

> 在 开发 者 中 心 (DevCenter) 创建 应 用 并 获取 API KEY, API SECRET. 

> 运行 Matlab， 下 载 SDK (https://github.com/FacePlusPlus/facepp-matlab-sdk ) . 
> 更改 facepp demo.m 中 API KEY 和 APL SECRET 为 注册 的 信息 。 


O 按 FS 键 运行 ， 得 到 结果 如 图 19-14 所 示 。 





图 19-14 Face++ SDK A Ils £5 ill Demo 
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19.5 ”自然 语言 处 理 


自然 语言 处 理 (Natural Language Processing, NLP) 是 涵盖 计算 机 科学 、 人 工 智能 和 语言 
学 的 交叉 学 科 ， 目 的 是 让 计算 机 处 理 、 理 解 自 然 语言 ， 同 人 类 进行 更 直接 的 交互 。 





19.5.1 问题 描述 


自然 语言 处 理 包 括 词法 分 析 、 名 法 分 析 、 语 义 分 析 等 多 个 层次 ， 如 图 19-15 所 示 。 


语音 / 音 系 分 析 OCR/ 分 词 


词法 分 析 


ia ane 


对 话 处 理 





图 19-15 NLP 的 层次 


深度 学 习 最 早 在 语音 识别 (2009 E55 和 计算 机 视觉 (2012 EPD 领域 大 放 异 彩 ， 最 近 才 
应 用 到 自然 语言 处 理 领 域 ( 称 为 Deep NLP)， 仍 有 很 多 挑战 性 的 工作 ， 是 当前 的 研究 热点 。 


Deep NLP 将 NLP 的 思路 和 目标 与 表示 学 习 、 深 度 学 习 方法 结合 。 


在 语音 / 音 系 分 析 层次 ， 深 度 学 习 可 以 通过 声音 特征 直接 预测 音素 、 单 词 ， 并 表示 为 向 量 。 








O 在 词法 分 析 层 次 ， 每 个 语素 表示 为 向 量 ， 神 经 网 络 将 两 个 向 量 合并 为 一 个 向 量 。 





O 在 名 法 分 析 层 次 ， 每 个 单词 或 短语 表示 为 向 量 ， 神 经 网 络 将 两 个 向 量 合并 为 一 个 向 量 。 
O 在 语义 分 析 层 次 , 每 个 单词 、 短 语 、 逻 辑 表 达 都 表示 为 向 量 ， 神 经 网 络 将 两 个 向 量 合 3 


为 一 个 阿 量 。 
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典型 的 NLP 应 用 从 简单 到 复杂 有 : 拼写 检查 、 关 键 词 搜索 、 同 义 词 发 现 、 网 络 疏 虫 、 文 本 
分 类 、 目 动 文摘 、 文 本 校对 / 纠 错 、 机 器 翻译 、 复 杂 对 话 系统 等 。 目 前 NLP 的 难点 在 于 语言 表 
达 具 有 多 样 性 、 上 下 文 相 关 性 、 模 糊 性 。 





19.5.2 最 佳 实践 一 一 NLP-Caffe 


本 节 使 用 斯 坦 福 大 学 NLP 研究 组 (http:/nlp.stanford.edw ) 开发 的 NLP-Caffe 进行 实践 ， 源 
码 可 以 从 GitHub 上 获取 : https:Wgithub.com/Russell91/nlpcaffe。 


$git clone https://github.com/Russell91/nlpcaffe.git 

Cloning into 'nlpcaffe'... 

remote: Counting objects: 21028, done. 

remote: Total 21028 (delta 0), reused 0 (delta 0), pack-reused 21028 
Receiving objects: 100$ (21028/21028), 33.16 MiB | 5.47 MiB/s, done. 
Resolving deltas: 100% (13810/13810), done. 


Checking connectivity... done. 

$cdnlpcaffe/ 

$1s 

caffe.clocCONTRIBUTORS.md includematlabsrc 

CHANGES.txt data INSTALL.md models tools 
cmakedocker LICENSE python 

CMakeLists.txt docs Makefile README . md 


CONTRIBUTING.md examplesMakefile.config.example scripts 


可以 看 出 , NLP-Caffe 源码 与 Caffe 几乎 完全 一 致 。 实 际 上 NLP-Caffe 是 Caffe 的 一 个 分 支 ， 
NLP 用 户 无 须 触 磁 C++ 代码 就 可 以 直接 上 手 使 用 。 为 了 编译 NLP-Caffe， 我 们 将 前 面 编译 好 的 
Caffe 目录 下 的 Makefile.config 拷贝 一 份 ， 放 于 NLP-Catffe 目录 下 ， 直 接 编译 即 可 : 


Scp$CAFFE ROOT/Makefile.config . 

$ make -j 

PROTOC src/caffe/proto/caffe.proto 
CXX src/caffe/parallel.cpp 

CXX src/caffe/syncedmem.cpp 

CXX src/caffe/internal thread.cpp 
CXX src/caffe/data reader.cpp 

CXX src/caffe/util/db leveldb.cpp 
CXX src/caffe/util/insert splits.cpp 
CXX src/caffe/util/cudnn.cpp 

CXX src/caffe/util/im2col.cpp 
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CXX 
CXX 
CXX 
CXX 
CXX 
CXX 
CXX 
CXX 
CXX 
CXX 
CXX 
CXX 
CXX 
CXX 
CXX 
CXX 
CXX 
CXX 
CXX 
CXX 
CXX 
CXX 
CXX 
CXX 
CXX 
CXX 
CXX 
CXX 
CXX 
CXX 
CXX 
CXX 
CXX 
CXX 
CXX 
CXX 
CXX 
CXX 
CXX 
CXX 
CXX 


src/caffe/util/db lmdb.cpp 
src/caffe/util/upgrade proto.cpp 
src/caffe/util/math functions.cpp 
src/caffe/util/io.cpp 
src/caffe/util/hdf5.cpp 
src/caffe/util/db.cpp 
src/caffe/util/signal handler.cpp 
src/caffe/util/benchmark.cpp 
src/caffe/util/blocking queue.cpp 
src/caffe/data transformer.cpp 
$rc/caffe/solvers/adam soiver.cpp 
src/caffe/solvers/adadelta solver.cpp 
src/caffe/solvers/rmsprop solver.cpp 
src/caffe/solvers/nesterov solver.cpp 
src/caffe/solvers/sgd solver.cpp 
src/caffe/solvers/adagrad solver.cpp 
src/caffe/layer.cpp 
src/caffe/solver.cpp 
src/caffe/layers/input_layer.ecpp 
src/caffe/layers/cudnn lrn layer.cpp 
src/caffe/layers/filter layer.cpp 
src/caffe/layers/slice layer.cpp 
src/caffe/layers/memory data layer.cpp 
src/catffe/layers/concat layer.cpp 
src/caffe/layers/softmax layer.cpp 
src/caffe/layers/contrastive loss layer.cpp 
src/caffe/layers/mwn layer.cpp 
src/caffe/layers/reduction layer.cpp 
src/caffe/layers/pooling layer.cpp 
src/caffe/layers/reshape layer.cpp 
src/caffe/layers/batch reindex layer.cpp 


src/caffe/layers/cudnn conv layer.cpp 





src/caffe/layers/cudnn pooling layer.cpp 
src/caffe/layers/data layer.cpp 
src/caffe/layers/threshold layer.cpp 
src/caffe/layers/log layer.cpp 
src/caffe/layers/lstm layer.cpp 
src/caffe/layers/silence layer.cpp 
src/caffe/layers/exp layer.cpp 
src/caffe/layers/window data layer.cpp 


src/caffe/layers/bnll layer.cpp 
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CXX 
CXX 
CXX 
CXX 
CXX 
CXX 
CXX 
CXX 
CXX 
CXX 
CXX 
CXX 
CXX 
CXX 
CXX 
CXX 
CXX 
CXX 
CXX 
CXX 
CXX 
CXX 
CXX 
CXX 
CXX 
CXX 
CXX 
CXX 
CXX 
CXX 
CXX 
CXX 
CXX 
CXX 
CXX 
CXX 
CXX 
CXX 
CXX 
CXX 
CXX 
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src/caffe/layers/dropout layer.cpp 
src/caffe/layers/cudnn softmax layer.cpp 
src/caffe/layers/tanh layer.cpp 
src/caffe/layers/cudnn lcn layer.cpp 
src/caffe/layers/cudnn relu layer.cpp 
src/caffe/layers/elu layer.cpp 
src/caffe/layers/split layer.cpp 
src/caffe/layers/hdf5 output layer.cpp 
src/caffe/layers/flatten layer.cpp 
src/caffe/layers/softmax loss layer.cpp 
src/caffe/layers/argmax layer.cpp 
src/caffe/layers/hdf5 data layer.cpp 
src/caffe/layers/spp layer.cpp 
src/caffe/layers/prelu layer.cpp 
src/caffe/layers/deconv layer.cpp 
src/caffe/layers/relu layer.cpp 
src/caffe/layers/crop layer.cpp 
src/caffe/layers/bias layer.cpp 
src/caffe/layers/hinge loss layer.cpp 
src/caffe/layers/neuron layer.cpp 
src/caffe/layers/sigmoid cross entropy loss layer.cpp 
src/caffe/layers/dummy data layer.cpp 
src/caffe/layers/multinomial logistic loss layer.cpp 
src/caffe/layers/base conv layer.cpp 
src/caffe/layers/embed layer.cpp 
src/caffe/layers/accuracy layer.cpp 
src/caffe/layers/wordvec layer.cpp 
src/caffe/layers/sigmoid layer.cpp 
src/caffe/layers/eltwise layer.cpp 
src/caffe/layers/cudnn sigmoid layer.cpp 
src/caffe/layers/power layer.cpp 
src/caffe/layers/inner product layer.cpp 
src/caffe/layers/lrn layer.cpp 
src/catfe/layers/loss layer.cpp 
src/caffe/layers/scale layer.cpp 
src/caffe/layers/absval layer.cpp 
src/caffe/layers/infogain loss layer.cpp 
src/caffe/layers/euclidean loss layer.cpp 
src/caffe/layers/image data layer.cpp 
src/caffe/layers/tile layer.cpp 


src/caffe/layers/base data layer.cpp 
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Src/caffe/layers/conv layer.cpp 
src/caffe/layers/cudnn tanh layer.cpp 
src/caffe/layers/batch norm layer.cpp 
src/caffe/layers/im2col layer.cpp 
src/caffe/net.cpp 
src/caffe/common.cpp 
src/caffe/blob.cpp 

src/caffe/layer factory.cpp 
tools/extract features.cpp 
tools/train net.cpp 

tools/caffe.cpp 

tools/test net.cpp 
tools/compute image mean.cpp 
tools/upgrade solver proto text.cpp 
tools/net speed benchmark.cpp 


tools/upgrade net proto text.cpp 





tools/device query.cpp 

tools/convert imageset.cpp 

tools/finetune net.cpp 
tools/upgrade net proto binary.cpp 
examples/cifarl0/convert cifar data.cpp 
examples/siamese/convert mnist siamese data.cpp 
examples/cpp classification/classification.cpp 
examples/mnist/convert mnist data.cpp 


.build release/src/caffe/proto/caffe.pb.cc 


-o .build release/lib/libcaffe.a 


-o .build release/lib/libcaffe.so.1.0.0-rc3 


CXX/LD -o .build release/tools/train net.bin 


CXX/LD -o .build release/tools/extract features.bin 
CXX/LD -o .build release/tools/caffe.bin 
CXX/LD -o .build release/tools/test net.bin 


CXX/LD -o .build release/tools/compute image mean.bin 


CXX/LD -o .build release/tools/upgrade solver proto text.bin 


CXX/LD -o .build release/tools/net speed benchmark.bin 





CXX/LD -o .build release/tools/upgrade net proto text.bin 








CXX/LD -o .build release/tools/device query.bin 


CXX/LD -o .build release/tools/convert imageset.bin 


CXX/LD -o .build release/tools/finetune net.bin 





CXX/LD -o .build release/tools/upgrade net proto binary.bin 


CXX/LD -o .build release/examples/cifarl0/convert_cifar data.bin 





iz Vai erit 


CXX/LD -o .build release/examples/siamese/convert mnist siamese data.bin 
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CXX/LD -o .build release/examples/cpp classification/classification,bin 


CXX/LD -o .build release/examples/mnist/convert mnist data.bin 


接 下 来 还 要 编译 pycaffe (Python 依赖 包 有 准备 过 程 参 考 16.2.1 155: 
# make pycaffe 
CXX/LD -o python/caffe/ caffe.so python/caffe/ caffe.cpp 


touch python/caffe/proto/ init .py 
PROTOC (python) src/caffé/proto/caffe.proto 


安装 额外 的 Python 运行 时 依赖 包 py-lmdb， 这 个 包 在 原版 Caffe TIS Aes Is 


$ sudo pip install lmdb 
Downloading/unpacking lmdb 
Downloading lmdb-0.89.tar.gz (149kB): 149kB downloaded 
Running setup.py (path:/tmp/pip build root/lmdb/setup.py) egg info for package lmdb 
py-lmdb: Using bundled liblmdb; override with LMDB FORCE SYSTEM-1. 


py-lmdb: Using CPython extension; override with LMDB FORCE CFFI-l. 


warning: no directories found matching '.' 
Installing collected packages: lmdb 
Running setup.py install for lmdb 


py-lmdb: Using bundled liblmdb; override with LMDB FORCE SYSTEM-1. 





py-lmdb: Using CPython extension; override with LMDB FORCE CFFI=1. 

building 'cpython' extension 

x86 64-linux-gnu-gcc -pthread -fno-strict-aliasing -DNDEBUG -g -fwrapv -02 -Wall 
-Wstrict-prototypes -fPIC -Ilib/py-lmdb -Ilib -I/usr/include/python2.7 -e lmdb/cpython.c 
-o build/temp.linux-x86 64-2.7/lmdb/cpython.o -UNDEBUG -w 

x86 64-linux-gnu-gcc -pthread -fno-strict-aliasing -DNDEBUG -g -fwrapv -02 -Wall 
-Wstrict-prototypes -fPIC -Ilib/py-lmdb -Ilib -I/usr/include/python2.7 -c lib/mdb.c -0 
build/temp.linux-x86_64-2.7/lib/mdb.o -UNDEBUG -w 

x86 64-linux-gnu-gcc -pthread -fno-strict-aliasing -DNDEBUG -g -fwrapv -02 -Wall 
-Wstrict-prototypes -fPIC -Ilib/py-lmdb -Ili -I/usr/include/python2.7 -c lib/midl.c -o 
build/temp.linux-x86 64-2.7/lib/midl.o -UNDEBUG -w 

x86 64-linux-gnu-gcc -pthread -shared -W1,-O1 -W1,-Bsymbolic-functions 
-Wl,-Bsymbolic-functions -Wl,-z,relro -fno-strict-aliasing -DNDEBUG -g -fwrapv -02 -Wall 
-Wstrict-prototypes -D FORTIFY SOURCE-2 -g -fstack-protector --param-ssp-buffer-size-4 
-Wformat -Werror-format-security build/temp.linux-x86 64-2.7/1mdb/cpython.o 
build/temp.linux-x86 64-2.7/lib/mdb.o build/temp.linux-x86 64-2.7/lib/midl.o -0 
build/lib.linux-x86 64-2.7/1mdb/cpython.so 


warning: no directories found matching '.' 


Successfully installed lmdb 


Cleaning up... 
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准备 数据 : 


$ ./data/language model/get lm.sh Downloading... 
--2016-05-05 06:57:55-- http://russellsstewart.com/s/lm/vocab.pkl 


Resolving russellsstewart.com (russellsstewart.com)... 52.8.97.128 
Connecting to russellsstewart.com (russellsstewart.com) |52.8.97.128/:80... connected. 
HTTP request sent, awaiting response... 200 OK 


Length: 1693706 (1.6M) [application/octet-stream] 


Saving to: ‘vocab.pkl’ 








100$[ E mx LE CC EE ===>] 1,693,706  1.52MB/s in 1.1s 
2016-05-05 06:58:00 (1.52 MB/s) - 'vocab.pkl' saved [1693706/1693706] 


--2016-05-05 06:58:00-- http://russellsstewart.com/s/lm/train indices.txt 


Resolving russellsstewart.com (russellsstewart.com)... 52.8.97.128 
Connecting to russellsstewart.com (russellsstewart.com) |52.8.97.128|:80... connected. 
HTTP request sent, awaiting response... 200 OK 


Length: 28632225 (27M) [text/plain] 


Saving to: 'train indices.txt' 





1.0.0$」[ ニー ニー ニー ニー ニー ニー デニ ーーー ニ ーーー ニ ニニ ニー ニー ニー ニニ ニニ ニー ニー ニニ ーー>] 28,632,225 5.32MB/s in. 6.5s 


2016-05-05 06:58:07 (4.19 MB/s) - 'train indices.txt' saved [28632225/28632225] 


--2016-05-05 06:58:07-- Rhttp://russellsstewart.com/s/lm/valid indices.txt 


Resolving russellsstewart.com (russellsstewart.com)... 52.8.97.128 
Connecting to russellsstewart.com (russellsstewart.com)|52.8.97.128|:80... connected. 
HTTP request sent, awaiting response... 200 OK 


Length: 278599 (272K) [text/plain] 


Saving to: 'valid indices.txt' 
109 を ニニ = ニー ニーー ニ ーーー ニ ーー ニー ニー ニニ ニー ニニ = ニー ニー ニー ニー ニー ニニ ーー ニ = ニ = ニー ニニ = ニ ==== ジ > ] 278,599 368KB/s in 0.7s 
2016-05-05 06:58:08 (368 KB/s) - 'valid indices.txt' saved [278599/278599] 


--2016-05-05 06:58:08-- http://russellsstewart.com/s/lm/test indices.txt 


Resolving russellsstewart.com (russellsstewart.com)... 52.8.97.128 
Connecting to russellsstewart.com (russellsstewart.com) |52.8.97.128|:80... connected. 
HTTP request sent, awaiting response... 200 OK 


Length: 279763 (273K) [text/plain] 
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Saving to: 'test indices.txt' 


100% [======================================>] 279,763 393KB/s in 0.78 
2016-05-05 06:58:09 (393 KB/s) - 'test indices.txt',saved [279763/279763] 
Done. 


使 用 刚刚 下 载 的 数据 ， 运 行 如 下 命令 可 以 生成 LMDB 数据 库 和 模型 结构 描述 文件 
train val.prototxt: 


$ python ./examples/language model/create lm.py --make data 
Starting train 

Writing 306068 sentences 

Starting valid 

Writing 3000 sentences 

Starting test 


Writing 3000 sentences 


接着 运行 训练 : 


$ ./examples/language model/train lm.sh 


输出 很 长 ， 不 再 贴 出 。 感 兴趣 的 读者 可 以 自行 试验 ， 并 按照 本 书 前 面 的 方法 深入 研究 数据 
和 模型 以 及 训练 过 程 。 


TIPS: 用 可 视 化 方法 研究 可 以 更 快 地 获得 灵感。 
通过 本 节 内 容 , 读者 初步 认识 了 自然 语言 处 理 问题 和 实现 方法 , 进一步 学 习 可 以 参考 资料 00。 


19.6 ”艺术 风格 [U02 


19.6.1 问题 描述 


在 好 的 艺术 作品 中 ， 尤 其 是 油画 中 ， 人 类 掌握 了 通过 在 内 容 和 风格 上 实施 复杂 的 重复 创建 
独特 视觉 体验 的 技能 。 谁 也 不 知道 该 过 程 的 算法 基础 ， 也 不 存在 具有 相似 特性 的 人 工 系统 。 然 
而 ， 在 其 他 视觉 感知 关键 领域 ， 例 如 目标 和 人 脸 识别 中 ,深度 神经 网 络 展 示 了 接近 人 类 的 性 能 。 

本 节 我 们 介绍 基于 深度 神经 网 络 的 人 工 系 统 ， 创 建 高 质量 艺术 图 片 。 该 系统 使 用 神经 表示 
来 分 离 、 重 组 任意 图 片 的 内 容 和 风格 ， 提 供 了 用 于 创建 艺术 图 片 的 神经 算法 。 更 多 的 ， 在 性 能 
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优化 的 人 工 神经 网 络 和 生物 视觉 系统 乙 间 奇特 的 相似 性 ， 提 供 了 一 种 理解 人 类 如 何 创 建 和 感知 
艺术 想象 的 途径 。 


， 如 何 获得 输入 图 像 的 风格 表示 


使 用 基于 网 络 的 每 层 不 同 滤波 器 响应 互相 关 特 征 空间 最初 设计 为 提取 纹理 信息 )。 通 过 多 
个 层 特征 互相 关 可 以 提取 输入 图 nm 多 尺度 纹理 信息 ， 即 为 其 图 像 风格 表示 ， 效 果 如 
图 19-16 上 半 部 分 所 示 。 








Style Reconstructions M 
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图 19-16， 风 格 表示 与 内 容 表 示 


2. 如何 获 得 输入 图 像 的 内 容 表 示 


将 各 层 重 构 原 图 ， 效 果 如 图 19-16 下 半 部 分 所 示 。 可 以 发 现 随 着 重 构 层 的 加 深 ， 损 失 了 图 
像 细 节 信 息 ， 但 保留 了 主题 信息 ， 故 高 层 特征 保留 了 图 像 的 内 容 表 示 。 





发 现 图 像 的 风格 表示 和 内 容 表 示 具 有 可 分 离 性 ， 这 就 为 艺术 风格 转换 提供 了 土壤 。 一 种 基 
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于 随机 梯度 下 降 搜索 的 方法 自然 而 生 。 从 一 张 自 噪声 图 像 CO 开始 ， 寻 找 同时 满足 两 个 条 件 的 
图 像 : 

O FRB A 的 内 容 表 示 相 匹 配 。 

O 与 艺术 作品 B 的 风格 表示 相 匹配 。 

最 终结 果 C 既 具 有 A 的 整体 布 局 信息 , 又 具有 B 的 颜色 和 局 部 


结构 信息 





style-transfer 


1 9.6.2 最 佳 实践 


本 节 使 用 Caffe 实现 图 像 艺 术 风 格 转换 。 代 码 来 自 : https://github.com/fzliu/style-transfer.git, 
是 基于 pycaffe 对 参考 资料 [11] 中 方法 的 实现 。 其 中 神经 网 络 计算 由 Caffe 负责 完成 ， 而 损失 最 
小 化 、 其 他 杂七杂八 的 矩阵 操作 使 用 numpy 和 scipy 完成 ， 这 里 最 优化 方法 采用 L-BFGS。 


读者 在 进行 本 节 试 验 前 ， 首 先 需要 准备 一 份 编译 好 的 Caffe 并 编译 pycaffe， 有 具体 步骤 请 参 
考 16.2.1 节 。 此 外 需要 安装 Python progressbar 包 ， 用 于 显示 进度 : 


$ sudo pip install progressbar 


$ git clone https: /db com/fzliufetye-cranster.gii 

Cloning into 'style-transfer'... 

remote: Counting objects: 354, done. 

remote: Total 354 (delta 0), reused 0 (delta 0), pack-reused 354 
Receiving objects: 100$ (354/354), 1.71 MiB | 15.00 KiB/s, done. 
Resolving deltas: 100$ (188/188), done. 

Checking connectivity... done. 

$ cd style-transfer/ 


$ tree 
トーー demo.py 


トーー content 
上 一 johannesburg.jpg 
トーー nanjing.jpg 


レー 一 sanfrancisco.jpg 


| 

| | 

| | 

| | 

| トーー results 
| | 上 一 starry johannesburg.jpg 
| | | 一 一 starry nanjing.jpg 

| | 


L—— starry sanfrancisco.jpg 
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-一 一 style 


| 

| E starry night.jpg 

トーー models 

| 上 一 一 caffenet 

| | L——deploy.prototxt 

| | L—— ilsvrc 2012 mean.npy 

| トー 一 goog1enet 

| | l—79À4deploy.prototxt 

| | L—— ilsvre 2012 mean.npy 

| トー 一 sty1enet 

| | L—— ilsvrc 2012 mean.npy 

| トーー ygg16 

| | トーー ilsvrc 2012 mean.npy 

| | L—— VGG ILSVRC 16 layers deploy.prototxt 
| に ニーー 
| 

| 





vgg19 
トーー iisvre 2012 mean.npy 
レヒ ーー vGG ILSVRC 19 layers deploy.prototxt 





トーー README .md 
一 一 requirements.txt 


—— scripts 
| L—— download models.sh  // 下 载 模型 
L—— style.py // 所 有 核心 代码 都 在 这 里 


11 directories, 21 files 


使 用 如 下 命令 下 载 所 需 的 模型 : 


$ ./scripts/download models.sh 


一 切 准 备 就 绪 : 


$ python style.py -s «style image» -c «content image»'-m «model name» -g 0 


其 中 ,“-s <style image>” 指 定 了 风格 图 片 ;“-c «content image>” 指定 了 内 容 图 片 ;“-m 
«model name>” 指 定 了 用 什么 模型 ;“-g 0” 指 定 了 使 用 哪 块 GPU， 如 果 设 为 -1， 则 表示 在 CPU 
上 运行 。 欲 了 解 更 详细 的 命令 行 参 数 ， 请 阅读 源码 。 


这 里 运行 参数 设置 如 下 : 


$ python style.py -s images/style/starry night.jpg \ 
-c images/content/nanjing.jpg \ 
-g 0 
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得 到 结果 如 图 19-17 所 示 。 





内 容 图 月 lis [81 Ae ue 


图 19-17 图 像 风 格 转换 结果 
19.7 ANG 


今天 我 们 跟 上 了 时 代步 伐 ， 领 略 了 深度 学 习 在 图 形 图 像 、 文 本 、 视 频 、 艺 术 作品 等 领域 的 进 
展 。 值 得 读者 深思 的 是 ， 将 深度 学 习 大 法 与 传统 领域 结合 可 以 进发 无 限 可 能 ， 只 有 你 想不到 的 











忽悠 是 一 拍 脑袋 就 想 出 来 ， 然 后 就 忘 了 。 





创新 是 一 拍 脑袋 就 想 出 来 ， 然 后 实现 了 ， 


19.8 ”练习 题 


1. 搜集 深度 学 习 在 如 下 领域 中 的 应 用 情况 : 场景 识别 ， 动 作 、 行 为 识别 ， 医 学 研究 ， 天 文 
观测 ， 海 洋气 象 ， 地 震 信 号 处 理 。 


坛 着 将 左 图 转换 为 右 图 风格 : 
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第 20 x 
继往开来 的 领路 人 


本 书 即将 结尾 ， 读 者 前 进 的 路 却 仍然 促 向 远方 。 
在 前 进 时 ， 不 可 避免 会 遇 到 斌 糠 从 生 、 泥 洒 坎 坷 的 险 途 


今天 的 内 容 是 为 读者 提供 向 导 ， 指 引 方向 ， 避 免 深 陷 泥 潭 。 
20.1 Caffe Traps and Pitfalls 


本 节 是 来 给 Caffe 挑刺 的 。 每 种 框架 实现 时 都 会 关注 某 些 方面 ， 而 忽视 了 另 一 些 方面 ， 所 
以 没有 十 全 十 美的 框架 ， 只 有 更 适合 自己 需求 的 框架 。 当 使 用 时 如 果 能 提前 知道 这 些 框 架 的 坑 
Fi, WERKA, ARLE. 


20.1.1 不 支持 任意 数据 类 型 


Caffe 大 部 分 数据 结构 (如 Blob. Layer, Net, Solver 及 其 派生 类 ) 都 是 模板 类 ， 通 过 实例 
化 模板 参数 来 支持 多 种 数据 类 型 。 

事实 上 ，Caffe 只 支持 float 和 double 两 种 类 型 网 络 。 如 果 创 建 Blob<int 实 例 ， 则 会 发 现 缺 
> Update() 计 算 实现 。Caffe 依頼 BLAS 库 实 现 基 本 运算 ，BLAS 不 文 持 的 数据 类 型 ，Caffe 同样 
不 支持 。 

Caffe 创建 网 络 时 一 旦 使 用 某 种 类 型 , 整个 网 络 中 各 层 就 都 是 相同 类 型 (通过 模板 参数 传递 ， 
参考 11.2.1 节 中 的 Net::Init0 函 数 实现 )， 限 制 了 同一 网 络 多 种 不 同 数据 类 型 支持 的 需求 。 如 果 
读者 希望 使 用 低 精 度数 值 类 型 实现 某 些 层 计算 (ReLU 和 Pooling 对 数值 精度 要 求 不 高 )， 则 需 
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要 修改 Caffe 中 相应 代码 ， 打 破 模板 参数 的 默认 传递 路 径 。 
20.1.2 不 够 灵活 的 高 级 接口 


Caffe 支持 3 种 高 级 接口 : 命令 行 、Python 和 Matlab， 三 者 在 功能 上 几乎 雷同 ， 定 义 一 个 
模型 仍然 需要 用 ProtoBuf 文件 描述 ， 然 后 调用 Net 构造 函数 ， 将 ProtoBuf 描述 文件 名 作为 参数 
传递 给 Net 进行 网 络 创建 。 也 就 是 说 , 无 论 哪 种 高 级 接口 都 不 能 逃避 手写 (或 者 工具 写 )ProtoBuf 
网 络 描述 文件 的 工作 。 


ProtoBuf 相当 于 一 门 模 型 定义 语言 ，! 虽然 很 强大 ， 但 初学 者 写 起 来 还 是 需要 一 定量 的 积累 
才能 掌握 。 不 深入 阅读 Caffe 代码 ， 可 能 永远 无 法 理解 ProtoBuf 描述 文件 中 的 一 些 参 数 、 集 合 
的 规则 。 


20.1.3 繁杂 的 依赖 包 

也 许 读 者 还 记得 第 5 天 介绍 的 那些 从 没 听 过 的 一 大 堆 依赖 包 安 装 过 程 ; 

也 许 读者 还 记得 在 某 个 暗 无 天 日 的 夜晚 辛 了 环境 ， 结 果 一 运行 make 就 会 弹出 无 数 
Error [f] ait 45 s 

Caffe 依赖 包 是 出 了 名 的 繁杂 。 虽然 使 用 现成 轮子 在 实现 上 可 以 带 来 一 定 的 便利 性 , 但 对 于 
不 就 悉 这 些 依 赖 包 的 同学 可 能 会 icons 学 习 难 点 。Caffe 大 量 的 依赖 包 使 得 移植 到 嵌入 式 平 台 
(小 车 、 飞 行 器 ) 变 得 困难 且 不 经 济 。 我 曾 将 Caffe 层 层 外 表 剥 离 ， 只 保留 最 小 的 必需 的 代码 ， 


运行 一 个 完整 的 AlexNet 模型 只 需 不 到 500 行 C++ 代码 。 这 部 分 代码 可 以 轻松 移植 到 除 x86 外 
的 其 他 平台 (GPU, ARM, DSP, Power8, FPGA 等 )。 


20.1.4 堪忧 的 卷 积 层 实现 
本 书 对 于 Caffe 卷 积 层 实现 过 程 上 只 字 未 提 ， 主 要 是 不 希望 读者 花费 大 量 时 间 和 精力 去 学 习 
一 个 速度 慢 而 且 实 现 极 不 优雅 的 方法 。 


赁 什么 说 Caffe 卷 积 层 速 度 慢 ?有 证 据 在 此 由。 读者 细心 观察 会 发 现 ，Caffe 的 (native 版 ) 
卷 积 层 效 率 几 乎 无 一 例外 都 排名 倒数 。 那 为 什么 还 有 那么 多 人 用 Caffe WE? 若 不 是 及 时 支持 
cuDNN, Caffe hi out 了。 


Caffe 诞生 时 标榜 自己 “高 效率 ”， 利 用 MKL、OpenBLAS、cuBLAS 等 线性 代数 库 ， 非 常 
waw ai bbt. com HHHHHHH 


358 深度 学 习 : 21 天 实战 Caffe 


“ 懒 ”地 实现 了 “高 效率 ” 代价 是 计算 时 需要 im2col 计算 占用 大 量 的 临时 空间 ， 不 适合 内 存 紧 
HKA R E EAK GPU. 

PS: Caffe 并 不 是 完美 支持 cuDNN ,最 新 的 cuDNN v5 仍然 未 加 入 支持 体验 Caffe + cuDNN 
V5 的 同学 可 能 需要 自己 动手 了 ， 请 参阅 参考 资料 
20.1.5 Z8 X 


Caffe 在 设计 之 初 看 上 去 非常 出 众 ， AEA EZR AA AS a BES ATA 更 不 
需要 重新 编译 代码 ! 





但 随 着 时 代 的 进步 ， 这 个 口号 逐渐 变 得 “鸡肋 ”。 深度 学 习 新 网 络 投 构 、 新 方法 层出不穷， 
Caffe 在 支持 这 些 新 特性 时 由 于 历史 包容 ， 动 作 变 得 异常 迟缓 。 不 利 因素 所 由 下: 


O 使 用 C++ 设计 并 实现 新 的 Layer， 而 模型 定义 仍 需 要 用 ProtoBuf 描述 ， 二 者 必须 手动 实 
现 匹 配 。 


O 新 增 一 个 层 ， 青 要 手动 实现 forward. backward. gradient update 三 种 算法 。 
> 为 了 支持 GPU， 需要 再 手动 实现 一 过 GPU 版 forward. backward. gradient update. 


O 新 增 层 需要 添加 proto 描述 ， 如 果 添 加 了 caffe.proto 中 的 新居 id, 那么 很 可 能 与 其 他 分 
支 神 突 。 


了》 只 支持 单机 多 卡 并 行 计算 ， 不 支持 多 机 多 卡 分 布 式 计算 。 
》 只 支持 数据 级 别 并 行 ， 不 支持 模型 级 别 并 行 。 
20.1.6 ”应 用 场景 局 限 性 


Caffe 从 一 开始 就 主要 面向 计算 机 视觉 、 图 像 分 类 和 识别 、 目 标 检 测 等 领域 ,只 考虑 图 像 数 
据 作 为 输入 ， 而 对 语音 、 文 本 数据 支持 不 好 。 这 也 导致 使 用 Caffe 的 用 户 儿 乎 无 一 例外 都 是 用 
于 图 像 类 应 用 。 


官方 正在 开发 的 NLP-Caffe 是 一 个 不 错 的 尝试 。 参 考 资料 [4] 将 语音 信号 提取 的 二 维 声 谱 图 
作为 Caffe 输入 数据 ， 进 而 实现 声乐 识别 应 用 。 这 也 是 一 个 很 好 的 解决 问题 的 思路 ， 值 得 读者 
学 习 。 
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20.2 ”最 佳 实 践 一 一 Caffe2 

Caffe 原作 者 茧 扬 清 试验 性 重 构 了 Caffe， 开 启 了 独立 分 支 ， 称 为 Caffe2P1, Github 地 址 ; 
https://github.com/Yangqing/caffe2 

Caffe2 出 发 点 是 改善 Caffe 的 设计 ， 使 之 更 通用 ， 不 局 限于 计算 机 视觉 领域 ， 而 是 更 广泛 
的 机 器 学 习 任 务 。 


相 比 Caffe, Caffe2 在 如 下 几 个 方面 有 了 改进 。 
(1) 设备 支持 


void Forward cpu(); 
void Forward gpu(); 
void Backward cpu(); 


void Backward gpu(); 

不 够 优雅 ， 现 在 改 为 更 简洁 的 接口 : 
template«typename Device» class Layer 
{ 


void Forward(); 


void Backward () 


(2) Blob 


从 前 的 Caffe 是 这 样 : 


template<typenameDtype> class Blob 


{ 


Dtype* data; ... 


现在 改 为 : 
class Blob { 


AnyPointer data; 


DataType type; 
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Blob 就 是 一 切 。 放 心 ，Blob 仍然 是 广义 的 N 维 数组 。 
下 面 我 们 来 实际 运行 Caffe2. 有 兴趣 的 读者 可 以 按照 本 书 传 授 的 方法 深入 阅读 Caffe2 源码 。 


在 安装 成 功 Caffe 的 机 器 上 再 安装 Caffe2 简直 易 5 如 反 学 。 所 需 依赖 为 protobuf、glog、gflags、 
eigen3， 其 他 依赖 如 CUDA, cuDNN, OpenCV, OpenMPI, leveldb. Imdb, rocksdb, ZeroMQ 
不 是 必需 的 。 


ete 


$ git clone https://github. a affe2.git 
$ cd caffe2 


满足 依赖 后 ， 直 接 编译 : 


-$ make 


运行 ipython notebook: 


$ ./notebooks/start ipython notebook.sh 


i 09:48:53.482 NotebookApp] Writing notebook server cookie secret to 
/run/user/0/jupyter/notebook cookie secret 
[W 09:48:53.568 NotebookApp] WARNING: The notebook server is listening on all IP addresses 


and not using encryption. This is not recommended. 


[W 09:48:53.568 NotebookApp] WARNING: The notebook server is listening on all IP addresses 
and not using authentication. This is highly insecure and not recommended. 





I 09:48:53.583 NotebookApp] Serving notebooks from local directory: 
/diskl/deeplearning/caffe2 


[I 09:48:53.583 NotebookApp] 0 active kernels 


[I 09:48:53.583 NotebookApp] The IPython Notebook is running at: http://[all ip addresses 
on your system]:8888/ 


[I 09:48:53.583 NotebookApp] Use Control-C to stop this sérver and shut down all kernels 
(twice to skip confirmation). 


[W 09:48:53.583 NotebookApp] No web browser found: could not locate runnable browser. 
^^[I 09:50:22.176 NotebookApp] 302 GET / (10.168.154.40) 0.55ms 


[I 09:50:59.192 NotebookApp] Writing notebook-signing key to /root/.local/share/ 
jupyter/notebook secret 


[W 09:50:59.194 NotebookApp] Notebook notebooks/alexnet2.ipynb is not trusted 
[I 09:51:00.484 NotebookApp] Kernel started: 25cdda41-fc39-4dff-8d86-1a06c0dcfea6 


打开 浏览 器 ， 在 地 址 栏 输入 : http://127.0.0,1:8888/， 如 图 20-1 所 示 。 
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[420-1 IPython Notebook 


点 击 alexnet2.ipynb, 3E alexnet2 页 面 ， 如 图 20-2 所 示 。 


二 JuPyter  alexnet2 mtoa 


Fie Eon Viw insani Cait Kirna net 


& + か CO OW ^^ + M OB で Mrd * Cail Toolbar: toou 


继往开来 的 领路 人 


Python 


This |s à notebook that shows à barebone construction of the AlexNet? network, AlexNet2 is the one that Alex Krizhevsky used in his "One weird trick" paper. 


The difference between AlexNet2 and AlexNet is that there is no group convolution, making the overall architecture simpler. 


This notebook is nat intended to train a full model at its maximum accuracy. Instead. we just want to show how one can design the multiple parts of the 


algorithm m Python, and directly run the training procedure in Python. 


In |l]: tmatplotlib inline 
from matplotlib import pyplot 
import math 
import nuxpy as np 
from pycaffeZ import core, core gradients, workspace, visusiize 


loaded nvd3 1Python extension 
run nvd3.iPython wrapper.initlalize javascript|] to set up the notebook 
heipinvd3.IPython wrapper.initialize javascript) for options 


Now, for problems as large as ImageNet, t is often the case tha! a lot of things run for very long, and we probably aiso want ro inspect te progress of the 
code. AS a result, we set a folder togather with the workspace, and aiso nun mint - a very thin visual inspector that would aliow us to Jook at the progress of the 


training. 


1n [2]: ROOT_FOLDER = '/tmp/cafíe workspace” 
workspace.ResetWorkspace( /tmp/cáffe workspace | 
workspace.1nitGoogleLogging() 


Out[2]: True 


Let's write up the network together with the SGD training, As you can see, It is unified inte ane single network, without any external solver needed. You will 


need to change the db path to the db file you actually have on your disk. 


In 13h init net = corae.Net( init ) 
图 20-2 alexnet2 例 程 
更 多 关于 IPython Notebook 的 使 用 ， 请 参阅 参考 资料 [6]。 


20.3 ”练习 题 


1. 尽情 吐 模 或 听取 他 人 吐槽 Caffes 
2. 根据 你 的 需求 重 构 Caffe. 
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新生 


经 过 前 面 20 天 的 刻 昔 努 力 ， 茶 喜 你 马上 就 要 毕业 了 ! 你 可 以 亲自 拿 Caffe 作为 贴身 武器 ， 
去 解决 所 遇 到 的 实际 问题 了 ! 


21.1 三 人 行 ， 必 有 我 师 


你 不 是 一 个 人 在 战斗 。 
你 身后 还 有 庞大 的 Caffe 社区 。 


Caffe 社区 非常 活跃 ， 你 过 到 的 所 有 问题 几乎 都 有 人 直到 过 ， 翻 翻 历史 就 能 找到 解决 方案 。 
建议 你 时 和 常 关注 以 下 儿 个 网 址 。 


Q Caffe 用 户 组 : https://groups.google.com/forum/#! forum/caffe-users 

O Caffe 讨论 群 : https://gitter.im/B VL C/caffe 

O Caffe 问题 反馈 : https://github.com/BVLC/caffe/issues 

Q Caffe 中 文 社区 : http://www.caffecn.cn/ 

O 微 博 : http://weibo.com/u/5847253963?is hot=1 

O CaffeCN QQ fif: 431141753 

在 与 人 交流 的 过 程 中 ， 无 论 是 支持 还 是 反对 ， 都 是 促进 个 人 形成 独立 意识 形态 的 过 程 ， 好 
的 想法 得 到 认可 ， FERES ERAN E. dk abla ro etree 


. com 
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21.2 ”路 漫漫 其 修 远 今 ， 吾 将 上 下 而 求索 

本 书 只 是 入 门 读物 ， 更 进一步 的 修行 需要 靠 读 者 在 实际 中 不 断 总 结 经 验 教 训 。 下 面 结 出 几 
个 方向 供 读者 参考 。 

C1) 跟 进 Caffe 

REAPER Caffe 代码 分 支 的 变化 如 F 

> 支持 AMD GPU 及 OpenCL 开发 环境 : https://github.com/bvlc/caffe/tree/ opencl 

QO 支持 Windows 平台 〈 开 发 中 ): https://github.com/bvle/caffe/tree/windows 

O 支持 Apache Spark 的 独立 分 支 : https://github.com/yahoo/caffeonspark 

有 条 件 的 读者 可 以 亲自 搭 环 境 测试 一 下 。 

(2) 跟 进 学 术 界 研究 动态 


从 一 些 影响 力 大 的 国外 会 议 (如 ICCV、CVPR、NIPS、ECCV， 以 及 期 刊 如 IEEE Trans on 
Pattern Analysis and Machine Intelligence, IJCV, IEEE Trans on Image Processing, Pattern 
Recognition E) 中 获取 计算 机 视觉 、 机 器 学 习 、 深 度 学 习 相 关 的 最 新 论文 ， 跟 进 最 前 沿 的 研究 
动态 。 


(3) 阅读 其 他 深度 学 习 框架 代码 

推荐 阅读 并 实际 使 用 如 下 开源 深度 学 习 框 江 。 

> 关注 分 布 式 训练 : MxNet、CNTK、TensorFlow 

> 关注 GPU 上 性 能 优化 : cuda-convnet2 

O 关注 高 级 语言 灵活 性 : Torch, Theano 

(4) 自己 实现 一 个 深度 学 习 框 架 

精通 的 标准 ， 应 该 是 这 样 的 : 徒手 写 出 Caffe 每 个 模块 ， 徒 手写 prototxt 设计 网 络 模型 ， 前 


一 个 是 针对 工程 师 ， 后 一 个 是 针对 学 术 研 究 人 员 。 另 外 ， 对 于 多 个 深度 学 习 框架 ， 应 做 到 自由 
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转换 不 同 框架 的 模型 描述 。 
深度 学 习 的 知识 点 是 一 Bond € 明教 材 会 将 内 容 组 织 为 树 状 结构 利于 理解 〈 恰 如 深度 学 
习 本 身 架 构 )。 本 书 则 组 织 为 线 ， 适 合 入 门 级 读者 。 通 读本 书后 ， 读 者 可 以 毫 无 压力 地 读 国外 大 


部 头 书籍 ， 能 够 让 自己 的 知 ; enn UR. 而 将 知识 与 应 用 结合 才 是 最 终 目 的 ， 所 以 读者 最 


好 根据 自身 情况 选择 适合 目 己 的 方向 专攻 。 
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局 尾 语 


下 篇 * 升 华 主要 内 容 是 引领 读者 熟悉 如 何在 实际 生产 和 应 用 中 使 用 Caffe, T fi d Ne x dà 
工 的 日 常 工作 内 容 ， 为 今后 从 事 该 行业 做 好 心理 和 生理 准备 。 


“你 是 否 愿意 和 我 不 离 不 弃 ， 共 度 一 生 ? ”一 一 Caffe 如 是 说 。 
你 需要 包容 它 的 缺点 。 
你 需要 时 常 关 心 和 爱护 它 。 


尔 可 以 让 它 变 得 更 美 、 更 优秀 、 更 贴心。 
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结束 语 





余 自 幼 好 读书 ， 史 书 尤 甚 ， 每 得 一 佳作 ， 便 欣然 忘 食 ， 沉 浸 其 间 ， 不 能 自己 。 观 春秋 之 五 
， 阅 战国 之 纷争 ， — 以 三 国 ， 翡 水 游 ， 注 红楼 。 








oe ln 




















Caffe 代码 也 是 常 读 常 新 ， 每 次 阅读 仿佛 都 有 新 发 现 。 除了 作为 理解 深度 学 习 原 理 的 入 门 工 
， 更 多 的 能 从 中 学 习 一 个 完整 工程 的 方方面面 ， ee 


im 


王国 维 在 《人 间 词 话 》 中 说 :“ 古 今 之 成 大 事业 、 大 学 问 者 ， 必 经 过 三 种 之 境界 : “昨夜 西 
风 凋 下 树 ， 独 上 高 楼 ， 望 尽 天 涯 路 "。 此 第 一 境 也 。' 衣 带 渐 宽 终 不 悔 ， 为 伊 消 得 人 愉 翌 。” 此 第 
二 境 也 。“ 众 里 寻 他 千百度 ， 鞠 然 回 首 ， 那 人 却 在 灯火 阐 珊 处 '。 此 第 三 境 也 。” 


本 书 不 求 成 为 经 典 ， 只 愿 能 成 为 读者 垫 于 脚下 独 上 高 楼 的 阶梯 ， 将 深度 学 习 更 高 处 的 景色 
ミ 収 眼底 
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1. Kaldi 
Kaldi 是 用 C++ 编 写 的 专门 面 同 语音 识别 的 工具 集 , 适用 于 自动 语音 识别 (Automatic Speech 
Recognition, ASR) 系统 ， 遵 特 Apache v2.0 开源 协议 。 


Kaldi 标志 如 图 A- l 所 示 。 


ALDI 


图 A-1 Kaldi 标 志 
Kaldi 是 基于 有 限 状 态 转换 机 (Finite State Transducers, FST) 和 大 量 脚本 构建 的 完整 语音 
识别 系统 。 核 心 库 文 持 建 模 任 意 语音 上 下 文 尺 寸 , 声学 模型 使 用 子 空间 高 斯 混合 模型 (Subspace 
Gaussian Mixture Model, SGMM)、 标 准 高 斯 混合 模型 (GMM), 以 及 所 有 常用 线性 和 约束 变换 。 














项 目 主 页 : http://kaldi-asr.org/ 





GitHub 地 址 : https://github.com/kaldi-asr/kaldi 


2. Deeplearning4j 


Deepleaming4j 是 用 于 Java 的 深度 学 习 框 架 ， 也 是 首 个 商用 级 别 的 深度 学 习 开 源 库 。 
Deeplearning4j 由 创业 公司 Skymind 于 2014 年 6 月 发 布 ， 使 用 Deeplearning4j 的 不 乏 埃 森 哲 、 
雪 弗 兰 、 博 斯 咨询 和 IBM 等 明星 企业 。DeepLearning4j 是 一 个 面向 生产 环境 和 商业 应 用 的 高 成 
熟 度 深度 学 习 开源 库 ， 可 与 Hadoop 和 Spark 集成 ， 即 插 即 用 ， 方 便 开 发 者 在 APP 中 快速 集成 
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深度 学 习 功 能 。 它 可 应 用 于 以 下 深度 学 习 领 域 ; 
う 人 脸 / 图 像 识别 
2 语音 搜索 
> 语音 转 文 字 (Speech to text) 
O 垃圾 信息 过 滤 (异常 侦 测 ) 


う Wig BE ford) 








Deeplearning4j 标志 如 图 A-2 所 示 。 


D L4 J Deep Learning for Java 








图 A-2 Deeplearning4j 标志 
项 目 主 页 : http://deeplearning4j.org/ 
GitHub 地 址 : https://github.com/deeplearning4j/deeplearning4j 


3. Bidmach 

Bidmach 是 一 个 新 的 “rooflined” 工 具 集 ， 有 大 量 在 CPU 或 GPU 上 最 快 实现 的 机 器 学 习 算 
法 〈 回 归 、 聚 类 、 主 题 模 型 、 随 机 森林 ), iow 层 也 在 不 断 发 展 中 。 使 用 Bidmach 可以 快 
速 建立 单机 机 器 学 习 算 法 原型 ,可 以 构建 深度 学 习 模 型 并 水 平 扩展 到 集群 ,支持 Apache Spark. 


Bidmach 标志 如 图 A-3 所 示 。 


BID DA TA - 








图 A-3 Bidmach 标 志 
项 目 主页 : http://bid2.berkeley.edu/bid-data-project/ 


GitHub 地 址 :https:Wgithub.conmVBIDData/BIDMach 
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4. Blocks 


Blocks 是 一 个 非常 模块 化 的 框架 ， 有 助 于 在 Theano 上 建立 神经 网 络 。 目 前 ， 它 支持 并 提供 
的 功能 








O 构建 参数 化 Theano 运算 ， 称 之 为 “bricks”。 





O 在 大 型 模型 中 使 用 模式 匹配 来 选择 变量 以 及 “bricks ”。 
O 使 用 算法 优化 模型 。 

OQ 训练 模型 的 保 在 和 恢复 。 

OO 在 训练 过 程 中 检测 和 分 析 值 (训练 集 以 及 测试 集 )。 
O REKHA, W dropout. 

GitHub 网 址 : https://github.com/mila-udem/blocks 


5. Chainer 





Chainer 是 一 个 基于 Python 的 开源 深度 学 习 软 件 框 架 ， 支 持 CPU/GPU 加 速 。 





用 Chainer 编程 相对 直观 ， 代 码 易 懂 ， 用 户 可 以 高 效 地 实现 复杂 神经 网 络 模型 。 





Chainer 标志 如 图 A-4 所 示 。 





> Chainer 


A Powerful, Flexible, and Intuitive Framework of Neural Networks 


图 A-4 Chainer 醒 志 
项 目 主页 : http://chainer.org/ 
GitHub 地 址 : https://github.com/pfnet/chainer 


6. cuda-convnet&cuda-convnet2 


cuda-convnet 和 cuda-convnet2 是 深度 学 习 大 神 Alex Krizhevsky (2012 年 ILSVRC 冠军 ) 利 
用 Python/C++/CUDA 编写 的 深度 卷 积 神经 网 络 框架 ， 充 分 挖 所 了 GPU 硬件 架构 ， 使 用 纹理 内 
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存 优化 卷 积 算法 达到 了 相当 高 的 效率 。 该 框 保 是 为 GPU 定制 的 , 因此 运行 这 个 框架 要 求 读 者 必 
须 有 GPU 硬件 。 





cuda-convnet 标志 如 图 A-5 所 示 。 





图 A-5 cuda-convnet 醒 志 





项 目 主 页 : https://code.google.com/p/cuda-convnet/ 
https://code.google.com/archive/p/cuda-convnet2/ 


GitHub 地 址 : https://github.com/akrizhevsky/cuda-convnet2 


7. Keras 





Keras 是 基于 Theano 的 一 个 深度 学 习 框 架 ， 它 的 设计 参考 了 Torch, 用 Python 语言 编写 
是 一 个 高 度 模块 化 的 神经 网 络 库 ， 支 持 GPU 和 CPU 


Keras 标志 如 图 A-6 所 示 。 





图 A-6 Keras 醒 志 


项 目 主页 : http://keras.io/ 
GitHub 地 址 : https://github.com/fchollet/keras 


8. MatConvNet 











MacConvNet 是 Matlab 上 的 卷 积 神经 网 络 CNN 实现 。 该 工具 和 包 设 计 简 单 且 灵活 , 它 将 CNN 
模块 (用 于 计算 滤波 器 组 线性 卷 积 、 特 征 下 采样 等 函数 ) 封装 为 易 用 的 Matlab 函数 ， 便 于 快速 


实现 新 CNN 架构 原型 设计 。 同 时 ，MatConvNet 支持 CPU/GPU 高 效 计算 ， 能 够 在 大 规模 数据 
waw ai bbt. com HHHHHHH 
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集 如 ImageNet 上 训练 复杂 模型 。 


MatConvNet 标志 如 图 A-7 所 示 。 


MatConvNet 


图 A-7 MatConvNet 标 志 





项 目 主页 : http://www.vlfeat.org/matconvnet/ 
GitHub 地 址 : https://github.com/vlfeat/matconvnet 


9. Lasagne 


Lasagne 不 只 是 一 个 美味 的 意大利 菜 ， 也 是 一 个 与 Blocks 和 Keras 有 着 相似 功能 的 深度 学 


习 库 ， 但 其 在 设计 上 与 它们 有 些 不 同 。Lasagne 的 设计 理念 是 : 


2 简单 化 一 一 易于 使 用 和 扩展 的 机 器 学 习 库 ， 每 添加 一 个 特征 ， 就 应 该 考虑 其 对 易 用 性 和 


扩展 性 的 影响 , 每 一 个 抽象 概念 的 加 入 都 应 该 仔细 检查 , 以 确定 增加 的 复杂 性 是 否 合理 。 
O 小 接口 尽 可 能 少 的 类 和 方法 ， 尽 可 能 依赖 Theano 的 功能 和 数据 类 型 ， 遵 循 Theano 





的 规定 , 如 果 没 有 严格 的 要 求 , 不 要 ion 封装 东西 , 这 会 使 它 更 容易 使 用 并 且 扩展 它 ， 


> 不 但 事 一 一 未 使 用 的 功能 应 该 是 不 可 见 的 ， 用 户 不 会 考虑 自己 不 使 用 的 功能 ， 尽 可 能 单 
独 使 用 库 文件 中 的 组 件 。 








不 要 试图 掩盖 Theano, 尽量 以 Python 或 NumPy 数据 类 型 的 形式 将 函数 和 方 
^ 返 de Theano 表达 式 。 











> 重点 一 一 遵循 UNIX 哲学 “做 一 件 事 ， 并 把 它 做 好 ”， 重 点 集中 在 前 馈 神 经 网 络 。 
う 实用 主 兽 通 用 例 更 易于 使 用 ， 这 要 比 支 持 每 一 个 可 能 的 用 例 更 为 重要 。 





JH E: http://lasagne.readthedocs.io/en/latest/ 


GitHub 地 址 : https://github.com/Lasagne/Lasagne 
10. Marvin 
Marvin 是 普林斯顿 大 学 视觉 工作 组 新 推出 的 C++ 框架 。 该 团队 还 提供 了 一 个 文件 用 于 将 
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Caffe 模型 转换 成 与 Marvin 兼容 的 模式 。 
GitHub 地 址 : https://github.com/Princeton Vision/marvin 


11，ConvNetJS 

ConvNetJS 是 斯 坦 福 大 学 博士 生 Andrej Karpathy 基于 万 能 的 JavaScript 开发 的 浏览 器 插件 ， 
可 以 在 浏览 器 中 训练 神经 网 络 ， 文 持 通 用 神经 网 络 模块 (全 连接 层 、 非 线性 层 )、 分 类 
(SVM/Softmax) 和 回归 〈L2) 代价 函数 ， bea 述 和 训练 处 理 图 片 的 卷 积 网 络 ， 试 验 中 的 基于 深 
BE Q 学 习 的 增强 学 习 模 块 等 。 Karpathy 还 写 了 一 个 ConvNetIS 的 入 门 教程 ， 以 及 一 个 简洁 的 浏 
览 器 演示 项 目 。 





ConvNetJS 标志 如 图 A-8 所 示 。 


%&ConvNetS 
| 


ee Deep Learning i in your browser | 





图 A-8 ”ConvNetJS 标 志 





项 目 主 页 : http://cs.stanford.edu/people/karpathy/convnetjs/index.html 


GitHub 地 址 : https://github.com/karpathy/convnetjs 
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深度 学 习 是 当今 人 工 智能 领域 最 炙手可热 的 技术 ，Caffe 又 是 深度 学 习 众 多 开源 框架 中 很 杰出 的 一 款 。 永 科 
撰写 的 这 本 著作 ， 倾 注 了 很 多 心血 一 一 既 有 深度 学 习 理 论 知识 的 讲解 ， 又 有 Caffe 源 代码 的 剖析 ， 还 包括 解决 实 
际 问题 的 案例 ; 内 容 翔 实 、 思 考 全 面 、 深 入 浅 出 ， 每 章 末 尾 还 附 有 练习 题 和 参考 资料 ， 是 大 家 了 解 深度 学 习 知 
识 、 实 践 人 工 智 能 应 用 的 一 本 优秀 指南 。 





&CEO 
RANHLSAMAANLESE ARB, KPTUKATA 还 手 
把 手 带领 读者 实践 了 工具 设置 与 模型 搭建 ， 并 深入 浅 出 地 剖析 了 Caffk RE, 


绝对 是 诚意 十 足 的 大 作 ! 
一 一 简 士 伟 英特尔 ( 数据 中 心 工程 事业 群 ) 平台 方案 架构 师 


本 书 带 领 你 深入 浅 出 地 穿越 深度 学 习 模 型 ， 揭 开 它 神 秘 的 面纱 ;通俗 易 懂 ， 实 践 性 强 ， 用 实例 引导 读者 从 
基本 原理 到 代码 实现 再 到 应 用 场景 ， 涵 盖 了 深度 学 习 的 热门 技术 ， 是 目前 市 面 上 为 数 不 多 的 深度 学 习 源码 解析 
类 参考 资料 ， 也 是 一 本 可 以 让 你 快速 掌握 深度 学 习 精 散 的 好 书 | 
UE 中 国 科学 院 大 学 教授 /博导 ，CUDA 教 学 中 心 主持 人 /CUDA 研 究 中 心 主持 人 





”本 书 对 深度 学 习 的 历史 做 了 简单 梳理 ， 对 深度 学 习 的 常用 开源 库 做 了 非常 全 面 的 介绍 ， 尤 其 是 对 Caffe 做 了 
非常 深入 的 剖析 ， 既 探究 了 Caffe 代 码 细节 ， 又 介绍 了 深度 学 习 可 视 化 及 比赛 ， 是 一 本 非常 实用 的 深度 学 习 入 门 
及 工具 书 ， 相 信 本 书 会 对 国内 深度 学 习 应 用 的 普及 产生 至 关 重 要 的 影响 。 

一 一 孙 佰 贵 阿里 巴巴 资深 算法 工程 师 


毫 无 疑问 ， 深 度 学 习 是 当今 |T 行 业 最 火热 的 词汇 之 一 作为 NVIDIA 负 责 高 性 能 计算 团队 的 负责 人 ， 我 看 到 
越 来 越 多 的 公司 在 深度 学 习 领 域 大 量 投入 。 深 度 学 习 让 图 像 识别 率 更 高 、 语 音 识 别 更 准确 。 而 许多 有 志 于 在 深 
度 学 习 领 域 一 展 拳脚 的 研发 人 员 ， 却 苦于 没有 一 本 浅显 易 懂 的 深度 学 习 入 门 书籍 ， 来 引领 他 们 开始 使 用 深度 神 
经 网 络 这 一 强大 的 工具 。 本 书 以 应 用 广泛 的 Caffe 为 切入 点 ， 深 入 地 介绍 了 Caffe 的 使 用 及 一 些 应 用 实例 ， 可 以 
让 读者 对 深度 学 习 应 用 的 开发 过 程 有 一 个 非常 直观 的 理解 。 好 比 学 习 一 门 新 的 编程 语言 最 有 效 的 手段 就 是 编写 
几 个 例子 程序 一 样 ， 本 书 正 可 以 作为 深度 学 习 研 发 人 员 的 入 门 快 速 通道 。 

MRA 英 伟 达 高 性 能 计算 团队 技术 经 理 





有 两 个 标志 性 的 事件 让 深度 学 习 进 入 了 大 众 视野 一 一 谷歌 大 脑 学 会 了 “ 猫 脸 识别 ”和 AlphaGo 战 胜 了 李 世 
石 。 尤 其 后 者 ， 让 人 们 惊 呼 :， 人 工 智能 时 代 要 来 临 了 吗 ? 是 的 ! 伴随 摩尔 定律 下 计算 机 运算 能 力 的 大 幅 提 升 ， 
人 工 智能 在 越 来 越 多 领域 找到 有 价值 的 落脚 点 。 这 一 代 的 机 器 学 习 工 作者 无 疑 是 非常 幸运 的 ， 一 个 注定 伟大 的 
时 代 等 待 着 大 家 去 探索 。 很 高 兴 看 到 国内 这 么 快 就 出 现 了 这 样 一 本 深度 学 习 的 原创 书籍 ， 而 更 加 难能可贵 的 
是 ， 本 书 内 容 还 是 来 自 于 作者 在 阿里 云 进行 深度 学 习 一 线 工作 的 实战 总 结 ; 相信 此 书 可 以 帮助 大 家 更 好 地 进入 
这 个 日 新 月 异 的 领域 。 

一 一 谷 文 栋 推荐 技术 社区 ReSysChina 发 起 人 
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